5.正态分布

离散数据由单个数值组成。连续数据包含一个数据范围,这个范围内的任何一个数值都有可能发生。其数据常常用测量方法得到,而不是用计数方法得到。

对于离散分布来说,我们关心的是取得一个特定数值的概率,对于梁旭概率分布来说,我们关心的是取得一个特定范围的概率。

我们可以用概率密度函数来描述连续随机变量的概率分布。

概率密度函数f(x)是 这样的一种函数:通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指示该概率分布的形状。

概率密度函数下方的总面积必须等于1

一、正态分布(高斯分布)

正态分布是连续数据的“理想”模型

如果一个连续速记变量X符合均值为µ,标准差为σ 的正态分布,则通常写作

X ~ N(µ,σ2)

µ指出曲线的中央位置,σ2指出分散性。在实践中,这意味着σ2越大,正态分布曲线越扁平,越宽。

二、正态分布的特点

  1. 关于 x = µ 对称。即正态分布以均数为中心,左右对称。
  2. 在 x = µ 处取得概率密度函数的最大值,在x = m ±σ 处有 拐点,表现为钟形曲线。即正态曲线在横轴上方均数处最高。
  3. 正态分布有两个参数,即均数μ和标准差σ。μ是位置参数, σ是变异度参数(形状参数)。常用N(μ,σ2)表示均数为μ,标准差为σ的正态分布;用N(0,1)表示标准正态分布。
  4. 正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于1(也常写作100%)。

三、正态概率计算三步法

  1. 确定数据分布
  2. 标准化为N(0,1) 概率表仅给出N(0,1)的概率 Z = X-µ/ σ
  3. 用方便易用的概率表查找概率

正态分布是一种对称分布,其对称轴为直线X=μ,即均数位置

理论上

  • μ±1σ范围内曲线下的面积占总面积的68.27%
  • μ±1.96σ范围内曲线下的面积占总面积的95%
  • μ±2.58σ范围内曲线下的面积占总面积的99%

实际应用中:

  • X ±1S 范围内曲线下的面积占总面积的68.27%
  • X ±1.96S 范围内曲线下的面积占总面积的95%
  • X ± 2.58S 范围内曲线下的面积占总面积的99%

案例:新郎与新娘的体重之和 综合体重依然是连续数据,而且,综合体重依然符合正态分布。

求出 X +Y的均值和方差,可以使用离散概率分布的相同计算公式, 即,如果:

X ~ N(µx,σx2) 且
Y ~ N(µx,σy2)

则:

X +Y ~ N(µ,σ2)

其中

µ = µx + µy
σ2 = σx2 + σy2

如果是X-Y

X +Y ~ N(µ,σ2)

其中

µ = µx - µy
σ2 = σx2 + σy2
aX +b ~ N(aµ+b,a2σ2)

四、何时用正态分布近似替代二项分布

如果 X ~ B(n,p),且np >5,nq>5 ,则可以用 X~ N(np,npq)近似取代二项分布。 (如果n>50,且p<0.1,则可以使用泊松分布近似替代二项分布)

案例: 12个问题,答对5个或5个以下的概率,其中每个问题只有两个备选答案。

X ~ B(12,0.5),则 P(X<6) = 0.0387 X ~ B(6,3),则P(X<6) =0.5

结果差别这么大,为什么?

如果用正态分布近似替代二项分布,则需要进行连续性修正,这才能保证得到的正确地结果。因为二项分布是离散分布,正态分布是连续分布。

解决办法:

离散数值6包含了从5.5到6.5之间的一个范围,因此,我们不应该计算P(X<6) ,而应该试着甲酸P(X<5.5) 这种调整被称为连续性修正。 修正的技巧: ≤ 型概率的求解 在计算P(X≤a)这种形式的概率时,关键是缺点所选择的范围中包含离散数值a。在一个连续标度上,离散数值a会增长到(a+0.5)。这就是说,如果使用正态分布求P(X≤a),实际上需要计算P(X≤a+0.5),以求出近似值,换句话说,你要增加一个额外的0.5 ≥ 型概率的求解

在计算P(X ≥ b)这种形式的概率时,关键是缺点所选择的范围中包含离散数值b。在一个连续标度上,离散数值b会减小到(b-0.5)。这就是说实际上需要计算P(X ≥ b - 0.5),以求出近似值,换句话说,你要减去一个额外的0.5 ## 何时能用正态分布近似代替泊松分布

当 λ 很小时,泊松分布的形状与正态分布不相同,图像不对称,曲线好像被“扯”向了右边。 当 λ 变大,泊松分布图的外形看起来越来越像正态分布。 当 λ 大于15时可谓足够大。即X ~ Po(λ)且 λ >15,我们就能用 X ~ N(λ,λ),近似计算X ~ Po(λ)

五、案例

六、正态分布的应用

1. 确定医学参考值范围

参考值范围(reference range):指特定的“正常”人群的解 剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。

制定参考值范围的步骤:

  1. 选择足够数量的正常人作为调查对象。
  2. 样本含量足够大。
  3. 确定取单侧还是取双侧正常值范围。
  4. 选择适当的百分界限。
  5. 选择适当的计算方法。

例一

某地调查120名健康女性血红蛋白,直方图显示,其分 布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L , 试估计该地正常女性血红蛋白的95%医学参考值范围。

分析:正常人的血红蛋白过高过低均为异常,要制定双侧正 常值范围。

X ±1.96S =117.4±1.96*10.2=97.41~137.39 该指标的95%医学参考值范围为97.41~137.39(g/L)

血铅的分布为偏锋分布,且血铅含量只以过高为异常,要用百分位数法制定单侧上限。 P =38+57(200*95%-189)=38.7 µg/100g

2. 质量控制图

控制图基本原理:如果某一波动仅仅由个体差异或随机测 量误差所致,那么观察结果服从正态分布。

控制图共有7条水平线,中心线位于总体均数 μ处,警戒限 位于μ ± 2s 处,控制限位于 μ ± 3s 处,此外还有2条位于 μ ± s 处。如果总体均数和总体标准差未知,也可用样本估计值代 替,这时,7条水平线分别位于 X 、X ± S、X ± 2S 和 X ± 3S 处。

判断异常的8种情况是:

  • 有一个点距中心线的距离超过3个标准差(控制限以外)
  • 在中心线的一侧连续有9个点
  • 连续6个点稳定地增加或减少
  • 连续14个点交替上下
  • 连续3个点中有两个点距中心线距离超过2个标准差(警戒限以外)
  • 连续5个点中有4个点距中心线距离超过1个标准差
  • 中心线一侧或两侧连续15个点距中心线距离都在1个标准差以内
  • 中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。

例二

运用骨密度体模测量值序列建立质量控制图,对骨密度测量值进行 质量控制。骨密度(BMD)测量值既有随机误差,又常有系统误差,为 使测量值客观、真实必须进行质量控制。通常在每天开机后首先对固定 在机器内的“体模”进行测量,将每天的“体模”测定值点在控制图上,一 旦出现以上8种情形之一,便示警,操作者需针对具体问题分析原因并 调整到正常状态。图1显示了四幅“体模”测定值的控制图。

参考资料:

《深入浅出统计学》

梳理统计与数据分析(具体详见这本书)

中山大学课程 《医学统计学》方积乾

二项分布http://baike.baidu.com/view/79831.htm?fr=aladdin

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学