【2.1】两变量关联性分析
问题:两变量间是否存在相关或关联?
- 身高与体重
- 尿铅排出量与血铅含量
- 凝血时间与凝血酶浓度
- 血压与年龄
一、 线性相关
例101 在某地一项膳食调查中,随机抽取了14名40~60岁的 健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数 据,见表10-1。据此数据如何判断这两变量间有无关联?
表10-1 14例中年健康妇女的基础代谢与体重测量值
编号 | 基础代谢 (kJ /d) | 体重 (kg) | 编号 | 基础代谢 (kJ /d) | 体重 (kg) |
---|---|---|---|---|---|
1 | 4175.6 | 50.7 | 8 | 3970.6 | 48.6 |
2 | 4435.0 | 53.7 | 9 | 3983.2 | 44.6 |
3 | 3460.2 | 37.1 | 10 | 5050.1 | 58.6 |
4 | 4020.8 | 51.7 | 11 | 5355.5 | 71.0 |
5 | 3987.4 | 47.8 | 12 | 4560.6 | 59.7 |
6 | 4970.6 | 62.8 | 13 | 4874.4 | 62.1 |
7 | 5359.7 | 67.3 | 14 | 5029.2 | 61.5 |
线性相关系数 (linear correlation coefficient,Pearson product moment coefficient)
$$相关系数 = \frac{X和Y的协方差}{\sqrt{(X的方差)(Y的方差)}}$$
$$X的样本方差 = \frac{ {\sum _{i=1}^{n}} \left(x_{i}-\bar x \right)^{2}}{n-1}$$
$$Y的样本方差 = \frac{ {\sum _{i=1}^{n}} (y_{i}-\bar y)^{2}}{n-1}$$
$$ X和Y的样本方差 = \frac{ {\sum _{i=1}^{n}} (x_{i}-\bar x) (y_{i}-\bar y) }{n-1}$$
$$ r = \frac{l_{xy}}{\sqrt {l_{xx}l_{yy}} } = \frac{ {\sum _{i=1}^{n}} (x_{i}-\bar x) (y_{i}-\bar y) }{ \sqrt{ {\sum _{i=1}^{n}} (x_{i}-\bar x)^{2} {\sum _{i=1}^{n}} (y_{i}-\bar y)^{2} } }$$
- r是表示两个随机变量之间线性相关强度和方向的统计量,它没有单位
- 1<r<1
- r的正负值表示两变量之间线性相关的方向
- r的绝对值大小则表示两变量之间线性相关的密切程度
例102 计算例101中基础代谢Y与体重X之间的样本相关系数。
lxx =1144.5771
lyy =4645447.0121
lxy =70303.2329
r = lxy/√(lxxlyy) = 0.964
说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关 程度较大。
二、假设检验与秩相关
常用的检验方法:
1.查相关系数临界值表(附表)
2.t检验
$$ t _{r} =\frac{r-0}{S_{r}}$$
$$ S_{r} = \sqrt {\frac{1-r^{2}}{n-2}} $$
v=n-2
例10-3: r=0.964, 检验相关是否具有统计学意义。
t检验:
$$ t _{r} =\frac{0.964}{\sqrt {\frac{1-0.964^{2}}{14-2}}} = 12.559$$
v = 14 - 2 = 12
P<0.001。可认为40~60岁健康妇女的基础代谢与体重之 间存在正相关。
总体相关系数的区间估计:
例10-3:
r=0.964, 试估计总体相关系数的95%置信区间。
$$ Z = \frac{1}{2}ln(\frac{1+r}{1-r}) = \frac{1}{2}ln(\frac{1+0.964}{1-0.964}) = 1.9996$$
- (1.4086,2.5906)
- (0.8872,0.9888)
四、应注意的问题
- 散点图显示变量间有线性趋势时,才进行相关分析 2. 线性相关适用于双变量正态分布资料
- 正确理解相关关系,“相关不等于因果”
- 出现异常值时慎用相关
- 分层资料盲目合并易出假象。
二、秩相关
- 线性相关系数(Pearson correlation coefficient)
- 秩相关(rank correlation, Spearman coefficient),或称等级相关
- 适用于:不服从双变量正态分布;总体分布类型未知;数 据本身有不确定值;等级资料。
注意:贫血体征中 “-”有5个,一次应该是1,2,3,4,5。然后取平均值,就称为了3。一次类推。但这么搞,有什么依据么?
二、秩相关系数的假设检验
类似于积矩相关系数,关于秩相关系数的检验假设为
H0:ps = 0
H1:ps ≠ 0
α = 0.05
当n≤50 时,可查书后关于秩相关系数的临界值表,若rs 超过临界值, 则拒绝H0;n>50时,也可采用式(10-5)和式(10-6)作t检验。
例10-5中算得 rs =0.741, n= 10,查秩相关系数临界值表,|rs|>r(10,0.05) = 0.648,P<0.05,按 α=0.05的水准,拒绝Ho。可以认为贫血患儿的血红蛋白含量与贫血体征之间有负相关关系。
三、两个分类变量的关联分析
- 对分类变量间的联系,可作关联(association)分析
- 对两个分类变量交叉分类计数所得的频数资料(列联表)作关于两种属性独立性的χ2 检验
交叉分类2×2列联表
- 对样本量为n的一份随机样本同时按照两个二项分类的特 征(属性)进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表(contingency table)。
例10-3:为观察行为类型与冠心病的关系,某研究组收集 了一份包含3154个个体的样本,研究者将观察对象按行 为类型分为A型(较具野心、进取心和有竞争性),B型 (较沉着、轻松、和做事不慌忙)。对每个个体分别观 察是否为冠心病患者和行为类型两种属性,2×2种结果 分类记数如下表所示。试分析两种属性的关联性。
独立性检验就是考察πij =πriπcj成立与否。
$$ χ^{2} = \sum_{i,j} \frac{ (A_{ij} - T_{ij})^{2}}{T_{ij}}$$
H0 :行为类型与冠心病之间互相独立 H1 :行为类型与冠心病之间有关联 α =0.05
将表中各数据代入公式(9-9),
χ2 = (1781486-791411)23154/(158915652572897)=39.9
χ2(0.05,1)= 3.84,χ2 >χ2(0.05,1) P<0.05,说明行为类型与冠心病之间存在着关联性。
关联系数(association coefficient)
$$ r= \sqrt{\frac{ χ^{2} }{χ^{2} +n}}$$
$$ r= \sqrt{\frac{χ^{2} }{χ^{2} +n}} = \sqrt{\frac{39.9}{39.9 +3154}} = 0.112 $$
多分类资料的关联分析
例10-5 欲探讨职业类型与胃病类型是否有关联,某医生 将收治的310名胃病患者按主要的职业类型与胃病类型两种 属性交叉分类,结果见表106。问职业类型与胃病类型间有无关联?
310名胃病患者两种属性的交叉分类表
职业 | 浅表性胃炎 | 慢性胃炎 | 胃溃疡 | 合计 |
---|---|---|---|---|
机关干部 | 80 | 48 | 4 | 132 |
工厂工人 | 52 | 62 | 12 | 126 |
公交车司机 | 20 | 22 | 10 | 52 |
合计 | 152 | 132 | 26 | 310 |
H0:胃病类型与职业无关联 H1:胃病类型与职业有关联 α=0.05
所以胃病和职业是有关系哒
小结:
- 相关是测量变量间的相互关联或联系的指标。相关研究 的两个变量其关系是平等的,均为随机变量。
- 在分析相关时必须先做散点图
- 两连续变量间的相关分析方法主要有Pearson积矩相关和 Spearman秩相关
- 分类资料的关联分析可区分为两分类和多分类的情形, 检验都采用卡方检验。
- 相关和关联是两变量间相互关联或联系数量上的关系,不能据此推论两变量有因果关系。相关有可能只是伴随 关系。
参考资料
中山大学课程 《医学统计学》方积乾
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn