【2.2.5】Polychoric correlation coefficient(二元有序变量间的相关)
Polychoric相关(多分格相关)度量多个对象之间关于有序变量(有时称为“有序类别”数据)之间的一致性。当以列联表的形式组织数据时,两个分类自变量被排序,据此计算Polychoric相关系数。
对于2×2列联表的情况,Polychoric相关系数也称为Tetrachoric相关系数(作为Polychoric相关的一种常见类型)。通过以下对Tetrachoric相关的描述即可理解Polychoric相关的定义。
Tetrachoric相关(二元有序变量间的相关,Polychoric相关的某种常见类型)。
Tetrachoric相关(四分相关)是在二元正态性假设下从2×2表推断出的Pearson相关,用于测量二元数据一致性。Tetrachoric相关要求基本变量来自正态分布,并且二元数据中存在一个潜在的连续梯度,即观测值的特征应该是连续而非离散的。
多变量相关性(Polychoric correlation)度量的是两个未观察到的,具有双变量正态分布的连续变量之间的相关性。有关每个未观察到的变量的信息是通过观察到的序数变量获得的,该序数变量是通过将变量的值分为有限的一组离散有序值而从未观察到的变量派生而来的(Olsson 1979; Drasgow 1986)。两个观测到的二进制变量之间的多色相关也称为四色相关(tetrachoric)。
多变量相关系数是基础正态变量之间乘积矩相关性的最大似然估计。多色相关的范围是从-1到1。Olsson(1979)给出了估计多色相关的似然方程和渐近标准误。基础连续变量通过阈值与观察到的序数变量相关,阈值定义了与每个分类级别相对应的一系列数值。 PROC CORR使用Olsson的最大似然法同时估算多态相关性和阈值。
PROC CORR通过使用Newton-Raphson算法迭代求解似然方程。在表的累积边际比例下,根据正态分布函数的反函数计算阈值的初始估计值。当收敛度量低于收敛标准或达到最大迭代次数时(以先发生者为准),多变量相关的迭代计算将停止。
二、概率值 Probability Values
CORR过程为零多色相关性( zero polychoric correlation)计算两种类型的检验:Wald检验和似然比(LR, likelihood ratio)检验。
给定多变量相关性(polychoric correlation)的最大似然估计值p及其渐近标准误差$ {{StdErr}(\hat{\rho })} $
,将Wald卡方检验统计量计算为
$$ \left( \frac{\hat{\rho }}{{StdErr}(\hat{\rho })} \right)^{2} $$
Wald统计量具有一个自由度的渐近卡方分布。
对于LR测试,还需要假设零多色相关的最大似然函数。 LR测试统计量的计算公式为
$$ -2 \; \log \, \left( \frac{L_0}{L_1} \right) $$
其中,L1是对所有参数具有最大似然估计的似然函数,以及L0对除多态相关性(设置为0以外)以外的所有参数具有最大似然估计的似然函数。LR统计量也具有一个渐近卡方分布 一个自由度。
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn