【9.2】医学研究的统计学设计

January 24, 2018 medical-statistics 阅读量：次

一、研究设计的基本要素

一、研究假说

科学研究的假说:根据已有知识作出假定性的说明和推断，有待研究予以验证。

例如，关于初次分娩的主动管理政策的假说:

可减少剖腹产的比例;
可减少延长分娩时间的比例;
并不影响产妇对分娩过程的满意度。

二、研究对象

“Eligibility criteria”: 年龄、性别、临床诊断、病情… *“Exclusion criteria”:常为保障病人安全。例如，一项有关HIV感染的临床治疗研究。
纳入标准:符合HIV治疗指导原则;年满18岁的成年人;开始治疗时BMI <18.5。
排除标准:怀孕期和哺乳期的妇女。

三、研究因素

影响结局的内外因素

3.1 研究因素:

实验性研究，施加于研究对象的外界干预，也称为处理 (treatment)因素
观察性研究，因素是自然存在的，如暴露 (exposure) 因素、危险(risk) 因素

3.2 非研究因素:

混杂因素或协变量，应予控制

动物实验:窝别、年龄、体重、营养等
临床疗效研究:疾病分期、病理类型等

四、结局指标

结局指标 (outcome, end point) ：度量研究因素产生的:效应 (effect) 或反应 (response)

主要指标 (primary outcome)
次要指标 (secondary outcome)

客观指标和主观指标

准确度 (accuracy)
精密度 (precision)
灵敏度 (sensitivity)
特异度 (specificity)

五、调查表

调查表(form)
问卷 (questionnaire)
量表(scale)
病例报告表(case report form，CRF)
生存质量(quality of life，QOL) 测定量表
一份量表含若干领域(domain)
一个领域含若干方面(facet)
一个方面含若干条目(item)

量表的考评

效度(validity) 有效性和正确性量表确实测定了所要测定的特征? 客观真实性的程度?
信度(reliability) 可靠性稳定性一致性
可接受性(acceptability) 被测定者对量表的接受程度

小结

医学科学研究分为干预性研究和观察性研究两大类;
医学研究设计包括专业设计和统计学设计两个部分。统计学设计是运用统计学原理和技术，对研究资料的收集、整理和分析进行科学设计;
统计学设计的基本要素:建立假说、确定研究对象、确定研究因素、明确结局指标和设计用于调查的量表等

二、统计设计的基本原则

一、对照(Control)

医学研究多数是通过比较产生结论，对照是比较的基础

消除非研究因素的混杂
鉴别研究因素的效应和自然发展结果

实验的三要素：

受试对象纳入标准和排除标准
实验因素 (干预因素) 控制重要的非实验因素 (其他)
实验效应但测得的是实验效应与其他效应之和

二、随机 (Randomization)

降低系统误差的影响，贯穿于设计和实施全过程:

样本代表性

总体中任何一个个体都有同等的机会进入样本;

组间可比性

样本中任何一个个体都有同等机会被分配到任何一个组

排除实验顺序影响

样本中的任何一个个体先后接受处理的机会相同

随机化分组:使实验组与对照组在非实验因素的分布方面尽量保持均衡一致。

随机化方法

随机数字表(random number)
计算机伪随机数(pseudo random number)发生器 — 可重复
为保证实验的可靠性和可重复性，在实验设计中所用的随机化方法、随机数及产生随机数的程序、种子数等均应有记录(备查)

三、重复 (Repeat)

重复实验、重复取样、重复测量

在大量重复实验的条件下，该处理的真实效应才会比较真实地显露出来
实验组和对照组的实验单位应具有一定的数量—样本含量
与重复实验相比，重复取样和重复测量属于第二位

样本含量的估算:

比较两组测定值的均数

预计欲比较的两总体参数的差值δ
预计总体标准差σ
允许出现假阳性结果的机会α
允许出现假阴性结果的机会β

单组比较: $$ N = [\frac{(Z_{\alpha/2} +Z_{\beta})\sigma }{\delta}]^{2}$$

两组比较: $$ N = 2[\frac{(Z_{\alpha/2} +Z_{\beta})\sigma }{\delta}]^{2}$$

样本含量的估算:

比较两组发生某结局的百分比

预计一个组发生某结局的百分比约为π1
预计另一组发生某结局的百分比约为π2
允许犯假阳性错误的机会α
允许犯假阴性错误的机会β

$$ π_{c} = \frac{π_{1} +π_{2}}{2} $$

$$ N = [\frac{ 2Z_{α/2}\sqrt{π_{c}(1-π_{c})} +Z_{β}\sqrt{2π1(1-π1)+2π2(1-π2) } }{π_{1} +π_{2}}]^{2} $$

小结

实验研究由处理因素、实验单位和实验效应三个要素组成;应该遵守对照、随机化和重复的基本原则;研究对象接受不同处理由随机分配决定;
观察性研究只能对已存在的状况和有关因素进行观察或调查，不能用随机化分组来平衡混杂因素的影响;适宜的统计学设计和分析对于观察性研究而言，尤其重要。

三、误差控制与统计计划

一、抽样误差

不可避免，但有一定规律，利用统计学技术，不仅可以控制，还可估计其大小。

非抽样误差

过失误差
系统误差又称偏倚(bias)
选择偏倚(selection bias)
测量偏倚(measurement bias)
混杂偏倚(confounding bias)

混杂因素(confounder)

混杂因素:若某非研究因素，既与研究因素有关，又与效应有联系;研究因素与效应之间的联系可能被掩盖或歪曲, 造成混杂偏倚。
设计:收集混杂变量的数据
分析:采取分层分析和多元分析的技术

二、偏倚的控制

设计阶段质量控制

围绕研究目的，严密设计总体方案
明确定义研究对象，正确划分观察范围
正确选择观察指标和欲调查问题
选择恰当的观察方式，保证数据质量
预研究，试点，评估方案的可行性，及时修改研究计划
规定一整套标准操作方法 (standard operation procedure, SOP)

资料收集阶段质量控制

研究人员的选择与培训
盲法
单盲
双盲评估盲法的实施
定期检查研究记录
检查研究对象的依从性

资料整理与分析阶段质量控制

问卷等测量报告的核对
数据录入质量控制
基线分析与校正
分层分析、多因素分析

三、统计分析计划

研究设计、资料搜集与整理分析是科学研究的三个紧密联系的阶段。
在研究设计时要同时制订详尽的统计分析计划, 以规范数据的管理和统计分析方法，使之与设计相匹配。
事先无计划，或疏虞计划，在获取研究数据以后，多方计算，以求得研究者期待的结论，这样的事后分析(post hoc analysis) 往往导致虚假结果。

数据录入与数据库的建立

二维结构数据库

每一行: 一个观察单位(observational unit, case) 的记录(record)
每一列:一个变量(variable)，调查的项目或观察指标
数据库: 全是数字，没有文字

数据核查与离群数据处理
数据核查人工检查和计算机检查
离群数据(outlier) 处理
缺失值(missing value) 处理

缺失值的比例不能太大
完全随机缺失(missing completely at random, MCAR) — 可以仅对完整资料的对象分析(complete subject analysis);否则，需利用适宜统计方法“填充”

统计分析方法的选择与前提

选择统计分析方法需考虑以下要素:

研究目的
设计类型
变量类型和数目
数据分布特征
样本量……
不同设计类型需采用不同的统计分析方法

小结

比较平均效应、两独立小样本、单个定量变量、正态分布 t 检验
比较平均效应、配对样本、单个定量变量、分布特征不详符号秩检验
比较平均效应、两独立大样本、单个分类变量、二项分布 χ2检验
比较平均效应、两独立小样本、单个分类变量、二项分布 Fisher 精确检验

误差来源包括非抽样误差和抽样误差;非抽样误差包括过失误差和系统误差(bias) 。
常见偏倚包括:选择偏倚、测量偏倚和混杂偏倚。应当在设计阶段、资料收集阶段和资料整理与分析阶段对偏倚进行控制，观察性研究尤其如此。
必须在制订研究计划的同时制订详尽的统计分析计划书 (statistical analysis plan, SAP)，包括原始数据的录入与数据库的建立、数据清理与核查、统计描述和统计推断的方法。

参考资料

中山大学课程《医学统计学》方积乾

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn

一、研究设计的基本要素

一、研究假说

二、研究对象

三、研究因素

3.1 研究因素:

3.2 非研究因素:

四、结局指标

五、调查表

量表的考评

小结

二、 统计设计的基本原则

一、对照(Control)

二、随机 (Randomization)

随机化方法

三、重复 (Repeat)

样本含量的估算:

样本含量的估算:

小结

三、误差控制与统计计划

一、抽样误差

非抽样误差

混杂因素(confounder)

二、偏倚的控制

三、统计分析计划

小结

参考资料

二、统计设计的基本原则