【2.2.6】Polyserial Correlation coefficient（定量变量和序数变量的相关）

April 06, 2020 distance 阅读量：次

Polyserial相关（多系列相关）测量的是两个连续变量之间的相关关系，它们具有二元正态分布，其中一个变量可以直接观测到（以定量数值记录），而另一个变量无法被观测（以序数值记录）。通过将可观测的连续变量分类为有限的离散有序值集，可以从可观测的有序变量获得不可观测有序变量的信息。
通过以下其特殊形式Biserial相关帮助理解。Biserial相关（连续变量和二元有序变量的相关，Polyserial相关的某种特例）
Biserial相关系数为Polyserial相关的一种特例，用于测量一组连续变量和一组二元变量的线性关系，二元变量是二分序数类型，具有潜在的连续性。

Y0，x=0时变量对的平均分；
Y1，x=1时变量对的平均分；
p，x=1时变量对的比例；
q，x=0时变量对的比例；
σy，总体标准偏差。

多序列相关性(Polyserial correlation measures )以两个变量的正态分布来衡量两个连续变量之间的相关性，其中直接观察一个变量，而另一个则不观察。通过将观察到的序数变量分类为有限的离散有序值集，可以从观察到的序数变量获得有关观察到的序数变量的信息（Olsson，Drasgow和Dorans 1982）。

令X为具有均值u和方差σ2的正态分布的观测连续变量，令Y为未观察到的连续变量，以及p为X和Y之间的皮尔森相关性。此外，假定观测序数D如下从Y派生：

$$ D = \; \left\{ \begin{array}{ll} d_{(1)} & {if} \, \, Y < \tau _{1} \\ d_{(k)} & {if} \, \, \tau _{k-1} \leq Y < \tau _{k}, \; \, k=2, 3, \ldots , K-1 \\ d_{(K)} & {if} \, \, Y \geq \tau _{K-1} \end{array} \right. $$

其中 $ d_{(1)} < d_{(2)} < \ldots < d_{(K)} $ 观察值有序， $ \tau _1 < \tau _2 < \ldots < \tau _{K-1}$ 未知阈值有序。

来自N个观测值的样本 $ (x_ j, d_ j) $ 的联合分布（X，D）的似然函数为

$$ L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \; P(D=d_ j \; | \; x_ j) $$

f(xj)是具有均值u和标准差σ的法线密度函数（Drasgow 1986）。

给定的Y的条件分布X=xj为均值pzj和方差1-p2为正态，其中zj= (xj-u)/σ为标准正态变量。在不失一般性的前提下，假设变量Y具有标准正态分布。然后，如果dj=d(k)，kth是D中的有序值，则结果条件密度为

$$ P(D=d_{(k)} \; | \; x_ j) = \; \left\{ \begin{array}{ll} \Phi \left( \frac{\tau _1 - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=1 \\ \Phi \left( \frac{\tau _ k - \rho z_ j}{\sqrt {1-\rho ^2}} \right) - \Phi \left( \frac{\tau _{k-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=2, 3, \ldots , K-1 \\ 1 - \Phi \left( \frac{\tau _{K-1} - \rho z_ j}{\sqrt {1-\rho ^2}} \right) & {if} \; \, k=K \end{array} \right. $$

Φ是累积正态分布函数。

Cox（1974）得出所有参数u,σ p,t1,tk-1，的最大似然估计。 u和σ2的最大似然估计值可以显式导出。 u最大似然估计是样本均值，σ2最大似然估计是样本方差

$$ \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N} $$

其余参数（包括多序列相关性p和阈t1,….t2）的最大似然估计可以通过迭代过程来计算，如Cox（1974）所述。在此过程之后，也可以计算最大似然估计的渐近标准误差。

对于参数向量，信息矩阵是Hessian矩阵（对数似然函数的二阶偏导数的矩阵）的负值，并且用于计算这些参数的最大似然估计。 CORR过程在计算中使用观察到的信息矩阵（以当前参数估计值评估的信息矩阵）。得出最大似然估计后，将这些参数估计的渐近协方差矩阵计算为观察到的信息矩阵（以最大似然估计评估的信息矩阵）的逆。

二、Probability Values

CORR过程为零多序列相关性（ zero polyserial correlation）计算两种类型的检验：Wald检验和似然比（LR）检验。

给定多序列相关性（polychoric correlation）的最大似然估计值p及其渐近标准误差 $ {{StdErr}(\hat{\rho })} $ ，将Wald卡方检验统计量计算为

$$ \left( \frac{\hat{\rho }}{{StdErr}(\hat{\rho })} \right)^{2} $$

Wald统计量具有一个自由度的渐近卡方分布。

对于LR测试，还需要假设零多序列相关的最大似然函数。如果p=0，则似然函数简化为

$$ L = \prod _{j=1}^{N} f( x_ j, d_ j) = \prod _{j=1}^{N} f(x_ j) \; \prod _{j=1}^{N} P(D=d_ j) $$

在这种情况下，可以明确导出所有参数的最大似然估计。的最大似然估计是样本均值u，σ2最大似然估计是样本方差

$$ \frac{\sum _{j=1}^{N} (x_ j - \bar{x})^{2}}{N} $$

另外，阈值tk, k = 1，…，K-1的最大似然估计为

$$ \Phi ^{-1} \left( \frac{\sum _{g=1}^{k} n_ g}{N} \right) $$

其中，ng是序数变量D的有序组gth中的观察数， $ N=\sum _{g=1}^{K} n_ g $ 是观察的总数。

LR测试统计量的计算公式为

$$ -2 \; \log \, \left( \frac{L_0}{L_1} \right) $$

其中，L1是对所有参数具有最大似然估计的似然函数，以及L0对于除多序列相关性（设置为0）以外的所有参数具有最大似然估计的似然函数。LR统计量也具有一个渐近卡方分布一个自由度。

参考资料

https://documentation.sas.com/?docsetId=procstat&docsetTarget=procstat_corr_details16.htm&docsetVersion=9.4&locale=en

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn