【2.2.3】kendall correlation coefficient(肯德尔相关性系数)

一、两个定序变量的统计相关

计算一个定序变量与另一个定序变量的相关系数,可用Gamma系数,dy系数,啃德尔的tau系数以及斯皮尔曼的rho系数。

  1. 计算中所用的基本概念
  • 同序对: 如果某对样本在两个变量上的相对等级是相同的,则称为同序对(same-prdered pair)。
  • 异序对: 如果某对样本在两个变量上的相对等级是不相同的,则称为异序对(different-ordered pair)
  • 同分对: 如果两个样本在某变量上可能是同分(tie),则不能分高低,则称为同分对。

例子

4名学生的成绩等级

学生 数学成绩 英文成绩
A 4 2
B 3 3
C 2 1
D 1 4

A与C是同序对,因为A的数学成绩等级低于C,其英文成绩也低于C。同里,B与C也是同序对,至于A与B则是异序对,因为A的数学成绩等级低于B,但其英文成绩高于B。同里,A与D,B与D,和C与D皆是异序对。综合起来,同序对有2个,异序对有4个。 Ns =2 , Nd =4

二、肯德尔相关性系数

肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。分类变量可以理解成有类别的变量,可以分为无序的,比如性别(男、女)、血型(A、B、O、AB),以及有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。通常需要求相关性系数的都是有序分类变量。

举个例子。比如评委对选手的评分(优、中、差等),我们想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。

肯德尔的tau洗漱可分三种形式,分贝为tau-a,tau-b,tau-c,都是适用于分析对称的关系。其基本逻辑是计算同序对数与异序对数只差在全部可能对数中所占的比例。

如何选择三种系数呢?

  1. 如果在两个变量上都没有同分对,则使用tau-a,则该系数值由 -1 — +1
  2. 如果有同分对,且在交叉分组表行数与列数相同(r=c)的情况下,则用tau-b,则该系数值由 -1 — +1
  3. tau-c则不考虑是否有同分对,也不考虑函数与列数是否相等,其系数值在 -1 – +1 之间。

tau-c 系数适用于社会科学研究,因为社会科学研究在问卷的设计时,不一定各个问题的选项都相同,在做交叉分析时,表的大小无一定规则,同时表中常有很对同分对。

tau-a

$$ τ = \frac {n_{c} - N_{d} }{ n_{0} } $$

tau-b

$$ τ = \frac {n_{c} - N_{d} }{ \sqrt{ (n_{0} -n_{1} )(n_{0} - n_{2} ) }} $$

nc是同序对,nd是异序对

$$ n_{0} = n(n-1)/2 $$ $$ n_{1} = \sum_{i}t_{i}(t_{i}-1)/2 $$ $$ n_{2} = \sum_{j}u_{j}(u_{j}-1)/2 $$

ti = number of tied values in the ith group of ties for the first quantity

ui = number of tied values in the jth group of ties for the second quantity

tau-c

$$ τ = \frac {2 (n_{c} - N_{d}) }{n^{2} \frac{ (m-1 )}{m }} $$

r = number of rows

c = number of columns

m = min(r,c)

三、代码实现

还是用cor函数求,这时候把method这个参数设成“kendall”,这时我们假设老师对选手的评价等级—3表示优,2表示中,1表示差:

> X= c(3,1,2,2,1,3)
> Y=c(1,2,3,2,1,1)
> cor(X,Y,method='kendall')
[1] -0.2611165

这时候就可以理解为两位老师对选手们的看法是呈相反趋势的,不过这种相反的程度不很大。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn