【2.2.6】Polyserial Correlation coefficient(定量变量和序数变量的相关)

Polyserial相关(多系列相关)测量的是两个连续变量之间的相关关系,它们具有二元正态分布,其中一个变量可以直接观测到(以定量数值记录),而另一个变量无法被观测(以序数值记录)。通过将可观测的连续变量分类为有限的离散有序值集,可以从可观测的有序变量获得不可观测有序变量的信息。
通过以下其特殊形式Biserial相关帮助理解。Biserial相关(连续变量和二元有序变量的相关,Polyserial相关的某种特例)
Biserial相关系数为Polyserial相关的一种特例,用于测量一组连续变量和一组二元变量的线性关系,二元变量是二分序数类型,具有潜在的连续性。

Y0,x=0时变量对的平均分;
Y1,x=1时变量对的平均分;
p,x=1时变量对的比例;
q,x=0时变量对的比例;
σy,总体标准偏差。


多序列相关性(Polyserial correlation measures )以两个变量的正态分布来衡量两个连续变量之间的相关性,其中直接观察一个变量,而另一个则不观察。 通过将观察到的序数变量分类为有限的离散有序值集,可以从观察到的序数变量获得有关观察到的序数变量的信息(Olsson,Drasgow和Dorans 1982)。

令X为具有均值u和方差σ2的正态分布的观测连续变量,令Y为未观察到的连续变量,以及p为X和Y之间的皮尔森相关性。此外,假定观测序数D如下从Y派生 :

$$ D = \; \left\{ \begin{array}{ll} d_{(1)} & {if} \, \, Y < \tau _{1} \\ d_{(k)} & {if} \, \, \tau _{k-1} \leq Y < \tau _{k}, \; \, k=2, 3, \ldots , K-1 \\ d_{(K)} & {if} \, \, Y \geq \tau _{K-1} \end{array} \right. $$

其中$ d_{(1)} < d_{(2)} < \ldots < d_{(K)} $观察值有序,$ \tau _1 < \tau _2 < \ldots < \tau _{K-1}$未知阈值有序。

来自N个观测值的样本$ (x_ j, d_ j) $的联合分布(X,D)的似然函数为

$$ L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \; P(D=d_ j \; | \; x_ j) $$

f(xj)是具有均值u和标准差σ的法线密度函数(Drasgow 1986)。

给定的Y的条件分布X=xj为均值pzj和方差1-p2为正态,其中zj= (xj-u)/σ为标准正态变量。 在不失一般性的前提下,假设变量Y具有标准正态分布。 然后,如果dj=d(k),kth是D中的有序值,则结果条件密度为

$$ P(D=d_{(k)} \; | \; x_ j) = \; \left\{ \begin{array}{ll} \Phi \left( \frac{\tau _1 - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=1 \\ \Phi \left( \frac{\tau _ k - \rho z_ j}{\sqrt {1-\rho ^2}} \right) - \Phi \left( \frac{\tau _{k-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=2, 3, \ldots , K-1 \\ 1 - \Phi \left( \frac{\tau _{K-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=K \end{array} \right. $$

Φ是累积正态分布函数。

Cox(1974)得出所有参数u,σ p,t1,tk-1,的最大似然估计。 u和σ2的最大似然估计值可以显式导出。 u最大似然估计是样本均值,σ2最大似然估计是样本方差

$$ \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N} $$

其余参数(包括多序列相关性p和阈t1,….t2)的最大似然估计可以通过迭代过程来计算,如Cox(1974)所述。 在此过程之后,也可以计算最大似然估计的渐近标准误差。

对于参数向量,信息矩阵是Hessian矩阵(对数似然函数的二阶偏导数的矩阵)的负值,并且用于计算这些参数的最大似然估计。 CORR过程在计算中使用观察到的信息矩阵(以当前参数估计值评估的信息矩阵)。 得出最大似然估计后,将这些参数估计的渐近协方差矩阵计算为观察到的信息矩阵(以最大似然估计评估的信息矩阵)的逆。

二、Probability Values

CORR过程为零多序列相关性( zero polyserial correlation)计算两种类型的检验:Wald检验和似然比(LR)检验。

给定多序列相关性(polychoric correlation)的最大似然估计值p及其渐近标准误差$ {{StdErr}(\hat{\rho })} $,将Wald卡方检验统计量计算为

$$ \left( \frac{\hat{\rho }}{{StdErr}(\hat{\rho })} \right)^{2} $$

Wald统计量具有一个自由度的渐近卡方分布。

对于LR测试,还需要假设零多序列相关的最大似然函数。 如果p=0,则似然函数简化为

$$ L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \; \prod _{j=1}^{N} P(D=d_ j) $$

在这种情况下,可以明确导出所有参数的最大似然估计。 的最大似然估计是样本均值u,σ2最大似然估计是样本方差

$$ \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N} $$

另外,阈值tk, k = 1,…,K-1的最大似然估计为

$$ \Phi ^{-1} \left( \frac{\sum _{g=1}^{k} n_ g}{N} \right) $$

其中,ng是序数变量D的有序组gth中的观察数,$ N=\sum _{g=1}^{K} n_ g $是观察的总数。

LR测试统计量的计算公式为

$$ -2 \; \log \, \left( \frac{L_0}{L_1} \right) $$

其中,L1是对所有参数具有最大似然估计的似然函数,以及L0对于除多序列相关性(设置为0)以外的所有参数具有最大似然估计的似然函数。LR统计量也具有一个渐近卡方分布 一个自由度。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学