【2.1】两变量关联性分析

问题:两变量间是否存在相关或关联?

  • 身高与体重
  • 尿铅排出量与血铅含量
  • 凝血时间与凝血酶浓度
  • 血压与年龄

一、 线性相关

例10­1 在某地一项膳食调查中,随机抽取了14名40~60岁的 健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数 据,见表10­-1。据此数据如何判断这两变量间有无关联?

表10­-1 14例中年健康妇女的基础代谢与体重测量值

编号 基础代谢 (kJ /d) 体重 (kg) 编号 基础代谢 (kJ /d) 体重 (kg)
1 4175.6 50.7 8 3970.6 48.6
2 4435.0 53.7 9 3983.2 44.6
3 3460.2 37.1 10 5050.1 58.6
4 4020.8 51.7 11 5355.5 71.0
5 3987.4 47.8 12 4560.6 59.7
6 4970.6 62.8 13 4874.4 62.1
7 5359.7 67.3 14 5029.2 61.5

线性相关系数 (linear correlation coefficient,Pearson product moment coefficient)

$$相关系数 = \frac{X和Y的协方差}{\sqrt{(X的方差)(Y的方差)}}$$ $$X的样本方差 = \frac{ {\sum _{i=1}^{n}} \left(x_{i}-\bar x \right)^{2}}{n-1}$$ $$Y的样本方差 = \frac{ {\sum _{i=1}^{n}} (y_{i}-\bar y)^{2}}{n-1}$$

$$ X和Y的样本方差 = \frac{ {\sum _{i=1}^{n}} (x_{i}-\bar x) (y_{i}-\bar y) }{n-1}$$

$$ r = \frac{l_{xy}}{\sqrt {l_{xx}l_{yy}} } = \frac{ {\sum _{i=1}^{n}} (x_{i}-\bar x) (y_{i}-\bar y) }{ \sqrt{ {\sum _{i=1}^{n}} (x_{i}-\bar x)^{2} {\sum _{i=1}^{n}} (y_{i}-\bar y)^{2} } }$$

  • r是表示两个随机变量之间线性相关强度和方向的统计量,它没有单位
  • ­1<r<1
  • r的正负值表示两变量之间线性相关的方向
  • r的绝对值大小则表示两变量之间线性相关的密切程度

例10­2 计算例10­1中基础代谢Y与体重X之间的样本相关系数。

lxx =1144.5771 
lyy =4645447.0121 
lxy =70303.2329
r = lxy/√(lxxlyy) = 0.964 

说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关 程度较大。

二、假设检验与秩相关

常用的检验方法:

1.查相关系数临界值表(附表)

2.t检验

$$ t _{r} =\frac{r-0}{S_{r}}$$ $$ S_{r} = \sqrt {\frac{1-r^{2}}{n-2}} $$ v=n-2

例10­-3: r=0.964, 检验相关是否具有统计学意义。

t检验:

$$ t _{r} =\frac{0.964}{\sqrt {\frac{1-0.964^{2}}{14-2}}} = 12.559$$

v = 14 - 2 = 12

P<0.001。可认为40~60岁健康妇女的基础代谢与体重之 间存在正相关。

总体相关系数的区间估计:

例10­-3:

r=0.964, 试估计总体相关系数的95%置信区间。 $$ Z = \frac{1}{2}ln(\frac{1+r}{1-r}) = \frac{1}{2}ln(\frac{1+0.964}{1-0.964}) = 1.9996$$

  • (1.4086,2.5906)
  • (0.8872,0.9888)

四、应注意的问题

  1. 散点图显示变量间有线性趋势时,才进行相关分析 2. 线性相关适用于双变量正态分布资料
  2. 正确理解相关关系,“相关不等于因果”
  3. 出现异常值时慎用相关
  4. 分层资料盲目合并易出假象。

二、秩相关

  • 线性相关系数(Pearson correlation coefficient)
  • 秩相关(rank correlation, Spearman coefficient),或称等级相关
  • 适用于:不服从双变量正态分布;总体分布类型未知;数 据本身有不确定值;等级资料。

注意:贫血体征中 “-”有5个,一次应该是1,2,3,4,5。然后取平均值,就称为了3。一次类推。但这么搞,有什么依据么?

二、秩相关系数的假设检验

类似于积矩相关系数,关于秩相关系数的检验假设为

H0:ps = 0
H1:ps ≠ 0
α = 0.05

当n≤50 时,可查书后关于秩相关系数的临界值表,若rs 超过临界值, 则拒绝H0;n>50时,也可采用式(10-­5)和式(10­-6)作t检验。

例10­-5中算得 rs =­0.741, n= 10,查秩相关系数临界值表,|rs|>r(10,0.05) = 0.648,P<0.05,按 α=0.05的水准,拒绝Ho。可以认为贫血患儿的血红蛋白含量与贫血体征之间有负相关关系。

三、两个分类变量的关联分析

  • 对分类变量间的联系,可作关联(association)分析
  • 对两个分类变量交叉分类计数所得的频数资料(列联表)作关于两种属性独立性的χ2 检验

交叉分类2×2列联表

  • 对样本量为n的一份随机样本同时按照两个二项分类的特 征(属性)进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表(contingency table)。

例10-­3:为观察行为类型与冠心病的关系,某研究组收集 了一份包含3154个个体的样本,研究者将观察对象按行 为类型分为A型(较具野心、进取心和有竞争性),B型 (较沉着、轻松、和做事不慌忙)。对每个个体分别观 察是否为冠心病患者和行为类型两种属性,2×2种结果 分类记数如下表所示。试分析两种属性的关联性。

独立性检验就是考察πijriπcj成立与否。

$$ χ^{2} = \sum_{i,j} \frac{ (A_{ij} - T_{ij})^{2}}{T_{ij}}$$

H0 :行为类型与冠心病之间互相独立 H1 :行为类型与冠心病之间有关联 α =0.05

将表中各数据代入公式(9­-9),

χ2 = (1781486-791411)23154/(158915652572897)=39.9

χ2(0.05,1)= 3.84,χ2 >χ2(0.05,1) P<0.05,说明行为类型与冠心病之间存在着关联性。

关联系数(association coefficient)

$$ r= \sqrt{\frac{ χ^{2} }{χ^{2} +n}}$$ $$ r= \sqrt{\frac{χ^{2} }{χ^{2} +n}} = \sqrt{\frac{39.9}{39.9 +3154}} = 0.112 $$

多分类资料的关联分析

例10-­5 欲探讨职业类型与胃病类型是否有关联,某医生 将收治的310名胃病患者按主要的职业类型与胃病类型两种 属性交叉分类,结果见表10­6。问职业类型与胃病类型间有无关联?

310名胃病患者两种属性的交叉分类表

职业 浅表性胃炎 慢性胃炎 胃溃疡 合计
机关干部 80 48 4 132
工厂工人 52 62 12 126
公交车司机 20 22 10 52
合计 152 132 26 310

H0:胃病类型与职业无关联 H1:胃病类型与职业有关联 α=0.05

所以胃病和职业是有关系哒

小结:

  • 相关是测量变量间的相互关联或联系的指标。相关研究 的两个变量其关系是平等的,均为随机变量。
  • 在分析相关时必须先做散点图
  • 两连续变量间的相关分析方法主要有Pearson积矩相关和 Spearman秩相关
  • 分类资料的关联分析可区分为两分类和多分类的情形, 检验都采用卡方检验。
  • 相关和关联是两变量间相互关联或联系数量上的关系,不能据此推论两变量有因果关系。相关有可能只是伴随 关系。

参考资料

中山大学课程 《医学统计学》方积乾

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn