1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 分类变量 有序变量与数值变量相关性分析方法总结及 R 语言应用

分类变量 有序变量与数值变量相关性分析方法总结及 R 语言应用

时间:2022-07-12 06:13:01

相关推荐

分类变量 有序变量与数值变量相关性分析方法总结及 R 语言应用

文章目录

一、分类 & 分类·相关性分析二、有序 & 有序·相关性分析三、数值 & 数值·相关性分析四、分类 & 有序·相关性分析五、分类 & 数值·相关性分析六、有序 & 数值·相关性分析
本文全部假设显著性水平为0.05,特殊说明的除外。

一、分类 & 分类·相关性分析

分类变量分析方法的选取与数据状态有较大相关性,计数据样本量为n,两变量交叉单元格数据为T。

卡方检验

卡方检验科用于对二维列联表的行变量和列变量的相关性检验,只能反应相关统计学意义,无法分析相关性强度

· 当所有T≥5并且总样本量n≥40,用Pearson卡方进行检验

· 当T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验

「R语言」>chisq.test(x1,x2)

样本量不够会提示检测结果可能不准确(Chi-squared approximation may be incorrect):

样本量够大后正常。p值小于0.05,str1与str2之间有显著相关关系。

Fisher精确检验

可以用于检验任何 R×CR\times CR×C 数据之间的相关关系(也可用于分析2*2数据)。与卡方检验只能拟合近似分布不同的是,Fisher精确检验可以分析精确分布,更适合分析小样本数据。

· T<1或n<40,则用Fisher’s检验

「R语言」>fisher.test(x1,x2)

· R 中fisher.test()可以在任意行列数大于等于2的二维列联表中使用,但不能用于2×2的列联表,2(a/b)×2(s/t)报错如下:

2(a/b)×4(a/b/c/d)可以。p值小于0.05,str1与str3有显著相关性

2(a/b)×3(a/b/c)也行。p值大于0.05,str1和str4没啥关系

Cochran-Mantel-Haenszel检验

Cochran-Mantel-Haenszel检验的原假设为:两个名义变量(x1,x2)在第三个变量(x3)的每一层中都是条件独立的

「R语言」>mantelaen.test(x1,x2,x3)

二、有序 & 有序·相关性分析

(一)当有序分类不能认为是定距时(比如三等奖和二等奖的差异与二等奖和一等奖的差异一般不同):

Spearman相关

Spearman相关又称Spearman秩相关,用于检验有序变量(相关性检验对象中至少一个是定序的)或不满足正态分布假设的等间隔数据的关联强度和关联性质。

「R语言」>cor.test(x1, x2, method = “spearman”)x1, x2均为数值形式变量,为原变量的秩数。Kendall’s tau-b(肯德尔)等级相关系数

Kendall’s tau-b 相关系数是用于检验至少有一个有序分类变量关联强度和方向的非参数分析方法。该检验与Spearman相关的应用范围基本一致,但更适用于存在多种关联的数据(如列联表)。

(二)当可以认为是定距时:

Mantel-Haenszel 趋势检验

该检验也被称为Mantel-Haenszel 卡方检验、Mantel-Haenszel 趋势卡方检验。该检验根据研究者对有序分类变量类别的赋值,判断两个有序分类变量之间的线性趋势

三、数值 & 数值·相关性分析

Pearson相关系数

Pearson相关系数度量了两个连续变量之间的线性相关程度

「R语言」>cor( x1,x2,method=‘pearson’)

Spearman相关系数

Spearman等级相关系数可以衡量非线性关系变量间的相关系数,是一种非参数的统计方法,可以用于定序变量或不满足正态分布假设的等间隔数据;

「R语言」>cor( x1,x2,method=‘spearman’)

KKendall秩相关系数

Kendall秩相关系数也是一种非参数的等级相关度量,类似于Spearman等级相关系数。

「R语言」>cor( x1,x2,method=‘kendall’)

「R」stata包:chisq.test() , fisher.test(), mantelhaen.test() , cor()

-cor()函数最重要的参数为 X,use,method。

---- X即指定分析的变量;

---- use指定缺失值处理的方法:all.obs则假设不存在缺失数据,遇到缺失数据时将会报错;everything遇到缺失数据时,结果将返回missing;complete.obs进行行删除;plete.obs则成对删除

---- method指明计算相关系数的方法:pearson、spearman、kendall

四、分类 & 有序·相关性分析

(一)有序变量 X1X_1X1​ & 二分类变量X2X_2X2​

无因果关系:

1.1 Biserial秩相关:

Biserial秩相关可以用于分析二分类变量和有序分类变量之间的相关性。在用二分类变量预测有序分类变量时,该检验又称为Somers’ d检验。此外,Mann-Whitney U检验也可以输出Biserial秩相关结果。

有序变量为因变量:

2.1 有序Logistic回归

有序Logistic回归在本质上并不是为了分析二分类变量和有序分类变量之间的相关性。但我们仍可以用有序logistic回归及其对应的OR值判断这两类变量之间的统计学关联。

二分变量为因变量:

3.1 Cochran-Armitage 检验

Cochran-Armitage 检验又称Cochran-Armitage 趋势检验,常用于分析有序分类自变量和二分类因变量之间的线性趋势。该检验可以判断随着有序分类变量的增加,二分类因变量比例的变化趋势,是对其线性趋势的统计学分析。

3.2 Mantel-Haenszel卡方检验:

Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。

3.3 Cochran-Armitage趋势检验:

Cochran-Armitage 趋势检验要求一个变量是有序分类变量,另一个变量是二分类变量。

(二)有序变量 X1X_1X1​ & 多分类变量X2X_2X2​

Mantel-Haenszel卡方检验:

Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。

五、分类 & 数值·相关性分析

(一)数值变量 X1X_1X1​ & 二分类变量X2X_2X2​:ttt 检验等

Point-biserial 相关性分析

Point-biserial相关是Pearson相关的一种特殊形式,适用于分析二分类变量和连续变量之间的相关性ttt 检验 :

相当于检验不同X2X_2X2​对应的X1X_1X1​是否有差异,有显著差异则相关,无显著差异则无法说明其相关(运用假设检验的原因不能直接说不相关)。注意这里的 p 值代表检验结果显著程度,与相关程度无直接关系。

(二)数值变量 X1X_1X1​ & 多分类变量X2X_2X2​:单因素方差分析等

ANOVA:

跟 t 检验一个原理,就是分类变量的类别超过2类后也适用。p 值小于显著水平则两变量具有一定的相关性,若 p 值大于显著性水平则无法证明两变量具有相关性(运用假设检验的原因不能直接说不相关),同样 p 值代表检验结果显著程度,与相关程度无直接关系。

六、有序 & 数值·相关性分析

没有专门针对有序变量和数值变量相关性分析的方法,一般将连续变量视为有序变量,按照有序 & 有序的方法进行分析

相关关系不是因果关系,相关关系是对称的。如果a和b是正相关关系,a会随着b的增加而增加,那么反过来b也会随着a的增加而增加,无论发现哪种现象,都能说明a和b之间存在正相关关系。本文评论中很多朋友纠结于x是什么,y是什么,实际上如果只是研究相关关系,x与y是可以互换的,关于相关关系的结论不会受影响。但如果朋友们研究的是因果关系,那么单纯相关分析是不足够的,需要更为进阶的模型来辅助研究。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。