【5】病例对照研究

一、前言

日本电影《典子》

一个艺术家的成长经历,一个失去双臂的姑娘自强不息的故事。

  • 导演: 松山善三
  • 主演: 辻典子,渡边美佐子,三上宽
  • 上映年度:1981年

反应停与短肢畸形之间存在因果关系吗?

Individual-Based Approach: Cases

个体思维(一维空间):发病人数

Numerator(分子) :4人患病

Population-Based Approach:Incidence Rate

群体思维(二维空间):发生率

Causality: Relative Risk因果思维(三维空间):相对危险度

Causality: Relative Risk 因果关系的流行病学表达:相对危险度

1963年,Weicker H等报告了他们的一项回顾性研究。他们调查了200个病例的母亲和300个健康婴儿的母亲,发现病例的母亲年龄比对照者的母亲年龄大。病例死亡率增高,有较多的流产与死产。病例者母亲是医师、教师和工程师等比对照者为多。在分析病因方面,排除了放射线、避孕药、堕胎药、去污剂等因素,只有反应停有意义。

病例对照研究
Case-control study
Source: Weicker H et al (1962): Dtsch med Wschr. 87:1593

二、定义

定义: 在疾病发生之后,以现在患有该病的病人为一组(病例组),以未患该病但其它条件与病人相同的人为另一组(对照组),通过询问、体检化验或复查病史,搜集既往各种可疑致病因素的暴露史,测量并比较两组对各种因素的暴露比例,经统计学检验若判为有意义,则可认为 因素与疾病间存在着统计学关联,在估计各种偏性对研究结果的影响之 后,再借助病因推断技术,推断出危险因素,而达到探索和检验病因假说的目的。

暴露 (exposure) 的定义

  • 指研究对象曾经
  1. 接触过某些因素:物理因素、化学物质、生物因素
  2. 具备某些特征:人口学特征、遗传
  3. 处于某种状态:心理、精神

暴露因素可以是有害的,也可以是有益的。暴露因素也叫研究变量。

病例对照研究示意图

病例对照研究实例:

用途:

  • 探索病因——筛选危险因素
  • 检验假说

三、病例对照研究的主要实施步骤

主要实施步骤:

  • 明确研究目的
  • 确定研究对象
  • 收集资料
  • 偏倚(Bias)及其控制
  • 资料整理与分析
  • 结果的解释

3.1 明确研究目的

病例对照研究可用于检验暴露和疾病之间的联系。

3.2 确定研究对象

  • 病例与对照的选择(单独章节)
  • 样本量的计算(单独章节)

3.3 收集资料

选择研究因素

  • 根据研究目的确定研究变量
  • 每个变量均需明确定义 公共卫生学院

资料来源:

  • 问卷
  • 记录
  • 测量

3.4 资料整理与分析

(一)整理:再核查 分组、归纳,或编码、入机

(二)分析

  1. 描述性分析:描述一般特征 均衡性检验
  2. 推断性分析:

3.5 推断性分析思路

整理四格表

病例对照研究资料整理表

- 病例 对照 合计
有暴露 a b a+b=n1
无暴露 c d c+d=n0
合计 a+c=m1 b+d=m0 n
  • 检验两组暴露率是否有统计学差异
  • 计算关联强度(比值比,OR)
  • 计算关联强度的可信区间
  • 分层分析
  • 剂量反应关系分析

3.6 偏倚 (Bias) 及其控制

在流行病学研究过程中,由于人为原因使所得结果与 真实情况存在系统误差,即偏倚。一般有三类偏倚

  • 选择偏倚 (selection bias)
  • 信息偏倚 (information bias)
  • 混杂偏倚 (confounding bias)

3.7 结果的解释:

  • 偏性的作用
  • 机会的作用
  • 因果关系推断

小结

优点: 省钱、快速、筛检多种因素、适于罕见病

缺点: 偏性、暴露与疾病的时间顺序难判断、不能估计率

四、病例与对照的选择

病例与对照选择的基本原则:

  • 代表性
  • 可比性

选择方法:

  • 抽样
  • 匹配

病例的选择:

定义:内、外部特征的限定

  • 对疾病的规定: 采用国际或国内统一的诊断标准。
  • 对病例其他特征的规定: 如性别、年龄、民族等。

类型:

  • 新发病例
  • 回忆偏倚小
  • 代表性好
  • 容易合作
  • 被调查因素改变少
  • 现患病例
  • 死亡病例

来源:

  • 医院: hospital-based case control study
  • 比较合作
  • 资料易得到且比较可靠
  • 与对照的可比性好
  • 代表性差
  • 社区人群:community-based case control study
  • 代表性好
  • 工作开展比较困难
  • 耗费人力物力

对照的选择

定义: 理想的对照应当从源人群中抽取,代表的是整个源人群 (source population)。

类型:

  • 不匹配 (无条件):成组对照
  • 匹 配 (有条件)
  • 频数匹配(成组匹配)
  • 个体匹配(1:1 配对 / 1:M 配比)

匹配:

  • 匹配 (matching) 定义
  • 匹配原则
  • 匹配因素确定:最常见的因素
  • 混杂因素
  • 复合变量
  • 年龄、性别最常见
  • 匹配过头 (overmatching)

来源:

  • 医院: 医院中患有其他疾病的病人
  • 人群: 研究的总体人群或抽样人群
  • 特殊: 亲属、邻居、同事、同学等

以社区为基础的和以医院为基础的病例对照研究各自的相对优点

以社区为基础的病例对照研究 以医院为基础的病例对照研究
可以较好地确定源人群 研究对象的可及性好
容易保证病例和对照来自于同一源人群 研究对象更易合作
对照的暴露史更可能反映病例源人群的暴露情况 比较容易从医疗记录和生物标本收集暴露信息

六、病例对照研究样本量的计算

决定样本大小的四个条件:

  • Po :一般(对照)人群中所研究因素的暴露率
  • OR:相对危险度
  • 𝜶 :I型错误,显著性水平,5%
  • 𝜷:II型错误,把握度(1-𝜷),80%

计算方法: 公式法或查表法

样本量的计算的工具:

  • EpiCalc 2000
  • NCSS-PASS

非匹配设计:病例数与对照数相等

拟进行一项非匹配设计的病例对照研究,探讨服用某种药物与白血病的关系。预期服药者发生白血病的相对危险度为2.0,人群中 的服药率约为20%,设 𝜶=0.05(双侧),𝜷 =0.10,估计样本含量。

1:1 匹配设计

拟进行一项1:1匹配设计的病例对照研究,研究口服避孕药与先天性心脏病的关系,设 𝜶=0.05(双侧),𝜷 =0.10,对照组暴露比例为p0=0.3,估计的RR=2,估计样本含量。

  • 估计的样本含量并非绝对精确的数值,仅供参考
  • 样本量不是越大越好
  • 病例组和对照组样本量相等时效率最高

七、推断性分析类型

7.1 不匹配不分层资料的分析

- 病例 对照 合计
有暴露 a b a+b=n1
无暴露 c d c+d=n0
合计 a+c=m1 b+d=m0 n

  • 检验两组暴露率是否有差异,用χ2检验
  • 用途:考察暴露与疾病有无统计学关联

$$ χ^{2} = \frac{(ad-bc)^{2}n}{n1n0m1m0} $$

$$ χ^{2} = \frac{(𝟏𝟐×𝟖𝟖−𝟑𝟖×𝟐)^{2}×𝟏𝟒𝟎 }{𝟏𝟒×𝟏𝟐𝟔×𝟓𝟎×𝟗𝟎} = 16.94 >10.83 𝟏𝟒×𝟏𝟐𝟔×𝟓𝟎×𝟗𝟎 $$ P<0.001 ,结论为拒绝无效假设,即两组暴露率差异有统计学意义。

计算关联强度:考察关联强度的大小

相对危险度 (Relative Risk, RR):即暴露组发病率与非暴露组发病率之比

 RR = I1 / I0

比值比 (Odds Ratio,OR):病例对照研究中常常得不到发病率,因此只能用 RR的估计值 OR值来考察关联强度的大小

比值:某事件发生概率与不发生概率之比

  • 暴露组患病比值 (a/𝒏𝟏)/(b/𝒏𝟏) = 𝒂/𝒃
  • 非暴露组患病比值 (𝒄/𝒅)/(𝒅/𝒏𝟎) = c/d

—比值比: 𝐎𝐑 = (𝒂/𝒃)/(𝒄/𝒅) = 𝒂𝒅/𝒃𝒄

OR数值的意义:

  • OR=1 暴露与疾病无关联
  • OR > 1 暴露与疾病正关联,危险作用
  • OR < 1 暴露与疾病负关联,保护作用

𝑶𝑹 = (𝟏𝟐×𝟖𝟖)/(𝟐×𝟑𝟖) = 𝟏𝟑.𝟗

OR的95%可信区间:2.8-131.2

即:有服用反应停史的母亲生育短肢畸形儿的风险,是没有服用反应停史的母亲的13.9倍!

7.2 匹配资料的分析

匹配资料(1:1配对资料)

χ2检验McNemar公式:

$$ χ^{2} = \frac{(b-c)^{2}}{b+c} $$

矫正公式: $$ χ^{2} = \frac{(|b-c|-1)^{2}}{b+c} $$

比值比: OR= c/b

7.3 偏倚 (Bias)

偏倚的流行病学定义:

在流行病学研究过程中,由于人为原因使所得结果与真实情况存在系统误差,即偏倚。

“Any systemic error in design, conduct or analysis of a study that results in a mistaken estimate of an exposure’s effects on the risk of disease. ”

Schlesselman JJ. Case-control studies: design, conduct, and analysis.Oxford University Press, New York; 1982.

偏倚的三种类型:

  • 选择偏倚 (selection bias)
  • 信息偏倚 (information bias)
  • 混杂偏倚 (confounding bias)

选择偏倚

1.来源:选择偏倚是指研究设计阶段,选择研究对象的方法有问题,使入选者与落选者在某些特征上具有系统差异。

2.影响:降低研究的外部真实性

3.常见类型:

  • 入院率偏倚 (admission rate bias/ Berkson bias)
  • 存活病例偏倚 (prevalence-incidence bias/ Neyman bias)
  • 检出征侯偏倚 (detection signal bias)
  • 时间效应偏倚 (time effect bias)
  • 其他:无应答偏倚、选择性转诊偏倚

Berkson bias:当利用医院病人作为病例和对照时,由于入 院率的不同导致病例组与对照组某些特征上的系统差异。

Neyman bias:从现患病例得到的很多信息可能只与存活有 公共卫生学院 关,而未必与该病的发病有关,从而高估了某些暴露因素的 病因作用。另一种情况是,某病的幸存者改变了生活习惯, 从而降低了某个危险因素的水平,或当他们被调查时夸大或 缩小了病前生活习惯上的某些特征,导致某一因素与疾病关 联误差。

信息偏倚

1.定义:信息偏倚是指收集资料阶段,测量暴露或结局的方法 有缺陷,使各比较组间产生系统差异 。

由于流行病学的暴露或疾病多为分类测量,所以信息 偏倚又称错误分类偏倚(misclassification bias)。

影响:降低研究的内部真实性

2.常见类型:

  • 回忆偏倚 (recall bias):是指研究对象在回忆某些因素的暴露史时,由于在准确性和完整性上的 差异所导致的系统误差。
  • 调查偏倚:可来源于调查对象和调查者双方。由于病例与对照的调查环境与条件不 同;调查技术、调查质量不高或差错以及仪器设备的问题所导致。

混杂偏倚

1.定义:研究暴露与疾病的因果关系时,混入外部因素,该外部因素与疾病和暴露都有一定的关联,此外部因素即为混杂因素。由于混杂因素的存在,影响了暴露与疾病间的关联强度,由此带来混杂偏倚。

2.判断混杂因子的必要条件 :

  • 必须是所研究疾病的独立危险因子;
  • 必须与研究因素(暴露因素)有关;
  • 不是研究因素与研究疾病因果链上的中间变量。

例如: 年龄,吸烟,肺癌

偏倚的控制

1.选择偏倚 (selection bias)

控制措施:

  • 充分了解、掌握研究中可能出现的各种选择偏倚
  • 严格掌握研究对象的纳入与排除标准
  • 应随机选取、多医院选取、用新发病例等

2.信息偏倚 (information bias)

控制措施:

  • 选择不易为人们忘记的重要指标做调查
  • 重视问卷的提问方式和调查技术、培训、一致性调查等。

3.混杂偏倚 (confounding bias)

控制措施:

  • 设计阶段:
  • 限制:制定恰当的入选和排除标准
  • 匹配:按主要的混杂因子匹配
  • 分析阶段:分层分析、多元模型、倾向评分法 (Propensity scores)

八、病因与因果推断

8.1 病因

流行病学:是研究人群中疾病与健康状况的分 布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学。

研究病因的重要性:

  • 个体采取预防措施的基础
  • 社会干预行动的基础
  • 有助于了解疾病发生发展的机制

因果观的发展:

  • 决定论因果观
  • 一定的原因 –》必然导致–》 一定的结果
  • 概率论因果观
  • 原因是使结果发生概率升高的事件或特征
  • 一定的原因 –》可能而不是必然 –》一定的结果

现代流行病学的病因定义:

那些能使人群发病概率升高的因素,就认为是病因,其中某个或多个因素不存在时,人群疾病频率就会下降。 ——Lilienfeld

  • 流行病学层次的病因一般称为危 险因素(risk factor)
  • 它的含义就是使疾病发生概率或 风险 (risk) 升高的因素。
  • 概率论因果观

充分病因和必要病因:

  • 充分病因(sufficient cause) 指有某个或某些病因存在,必定(概率为100%)导致相应疾病发生。
  • 必要病因(necessary cause) 指有某疾病发生,以前必定(概率为100%) 有相应某个或某些病因存在。

充分病因和必要病因存在局限性,我们应当放弃对充分病因和必要病因的追求,而对病因的 充分性和必要性进行概率测量 。

病因的分类

  • 宿主病因
    • 先天因素:基因、染色体、性别
    • 后天因素:年龄、发育、营养状态、体格等等
  • 环境病因
  • 生物因素:病原体、感染动物、媒介昆虫
  • 化学因素:营养素、化学药品、重金属
  • 物理因素:气象、地理、大气污染
  • 社会因素:人口、经济、家庭、嗜好兴趣

8.2 病因模型

理解不同的病因模型:

  • 生态学模型
  • 疾病因素模型
  • 病因网模型

生态学模型

疾病因素模型

病因网模型

因果联接方式

8.3 因果推断的方法和步骤

8.3.1 因果推断的方法

8.3.2 因果推断的步骤

8.3.3 不同研究方法因果推断的论证强度

设计类型 性质 可行性 论证强度
横断面研究 断面性
病例对照研究 回顾性
队列研究 前瞻性 较好 次强
实验研究 前瞻性

8.3.4 因果推断的过程

8.4 常用的因果推断标准

rules by which to judge of causes and effects” ——David Hume

8.4.1 现代因果推断标准的发展

提出者 年份 条数 标准
美国“吸烟 与健康报告”委员会 1964 5 1 关联的时间顺序;2 关联的强度;3 关联的特异性;4 关联的一致性或可重复性;5 关联的连贯性或合理性
Hill 1965 8 在上述标准基础上增加了3条: 1 剂量反应关系;2 生物学可能性(与上述5雷同) 3 实验证据
苏德隆 1980 8 基本同Hill标准 1 将“关联的连贯性”和“生物学可能性”合并 2 增加“分布一致性”
Lilienfeld 1994 7 基本同Hill标准1 将“关联的连贯性”和 “生物学可能性”合并

8.4.2 常用的因果推断标准

  1. 关联的时间顺序 2.关联的强度
  • 一般而言,关联的强度越大,该关联 为因果关联的可能性就越大 OR、RR
  1. 关联的可重复性
  • 不同人群、不同地区、不同时间
  1. 关联的合理性
  • 符合现有的理论知识
  1. 实验研究的证据

8.4.3 因果推断的例子

吸烟 ==> 肺癌

  • 吸烟是否发生在肺癌之前?
  • 吸烟和肺癌的关联程度有多强?
  • 吸烟和肺癌的关联是否可以重复观察到?
  • 有没有生物学机制可以解释吸烟和肺癌的关联?
  • 有没有实验研究的证据可以证明这种关联?

参考资料:

北京大学公共卫生学院 詹思延老师的 《流行病学绪论》 课件

这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn