【4.3】逻辑回归

Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。

1. 应用范围与定义:

  1. 适用于流行病学资料的危险因素分析
  2. 实验室中药物的剂量-反应关系
  3. 临床试验评价
  4. 疾病的预后因素分析

logistic回归主要用于危险因素探索。因变量y为二分类或多分类变量,自变量既可以为分类变量,也可以为连续变量。比如,探索胃癌发生的危险因素,胃癌作为因变量,分为两类,“是”或“否”。危险因素可以有一个多多个,比如性别、年龄、幽门螺杆菌感染等。通过logistic回归就可以发现哪些因素会影响胃癌的发生

确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。一般以x表示自变数,y表示依变数。。

比如说想研究吸烟是否与肺癌有关,年龄是否与糖尿病有关……但是这种回归分析问题不能借助线性回归模型,因为反映变量的假设条件遭到破坏,是否可以找到一种形式的模型y=f(x)来描述分类变量y和x之间的依存关系呢?

转化为分析y取某个值的概率变量p与x的关系,p=p(y=1|x)=p(x),o

任意

logistic回归分析是分类数据统计分析的一种重要的方法,研究多水平(包括2个水平)的应变量与其影响因子之间关系的回归分析。即用于分析某类事件发生概率与自变量之间依存关系的回归,即logistic回归。为概率型的非线性模型。

2.Logistic回归的分类:

2.1 按因变量的资料类型分:(x为自变量,y为因变量)

  • 二分类
  • 多分类

其中二分较为常用

2.2 按数据类型分:

  • 条件Logistic回归(配对病例-对照数据)
  • 非条件Logistic回归(成组数据)

两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。

2.3按自变量个数

自变数为一个时,称为一元回归分析, 自变数为m个时,称为m元或多元回归分析

3.Logistic回归的应用条件是:

  1. 独立性。各观测对象间是相互独立的;
  2. LogitP与自变量是线性关系;
  3. 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
  4. 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)

由于反映变量为二分类,所以误差应该服从二项分布,而不是正态分布。由于上述原因,最小二乘法不再使用,最大似然法的优越性与重要性凸显出来。

4.拟和logistic回归方程的步骤:

  1. 对每一个变量进行量化,并进行单因素分析;
  2. 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
  3. 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;
  4. 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。
  5. 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。
  6. 对专业上认为重要但未选入回归方程的要查明原因。

5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)

  1. 决定系数(R2)和校正决定系数,可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。

  2. Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:

Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。

  1. AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。

在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。

6.拟合方程的注意事项:

  1. 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;

  2. 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;

  3. 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;

  4. 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。

  5. 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;

  6. 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。

7.回归系数符号反常与主要变量选不进方程的原因:

  1. 存在多元共线性;
  2. 有重要影响的因素未包括在内;
  3. 某些变量个体间的差异很大;
  4. 样本内突出点上数据误差大;
  5. 变量的变化范围较小;
  6. 样本数太少。

8.参数意义

① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。

② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。

③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。

④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。

9.统计软件

能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。

10,里面设计到的参数

B:偏回归系数,含义为在控制其它变量的前提下,自变量每变化一个单位,因变量的变化量。

Sig.:你说对了,是P值,但这个P的含义是“一次抽样中抽到你计算出的概率大于等于设定概率(缺省是0.05)的可能性”。不管怎么说,<0.05就是有意义。

S.E.:标准误,可以理解为标准差的标准差。

OR:系统表示为Exp(B),就是以e为底的B此幂,也称比数比,是二分变量回归中最为常用的统计指标。表示联系去强度,

Wald 卡方:B/SE的平方,一种类似t检验或F检验的检验指标。

df:自由度,这个不好解释,数学上指某事物还能自由取值的方向(实在是不好理解是不是?),打比方吧,你有4个分组,因为有一个必定作为参照组,则只有3个组可以自由取值,此时df就是4-1=3;又比如,你的组内样本有10个,其中被mean占了一个,则可以自由取值的样本是10-1=9。

关键是看那个Sig.有没有统计学上的明显差异,其余的好办

一元Logistic回归分析对应四格表资料卡方检验;

对模型的检验采用的是似然比检验,对单个偏回归系数的检验采用似然比检验或wald卡方检验。

参考资料:

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn