6.泊松分布

一、什么时候用泊松分布?

在遇到独立事件时(例如机器在给定区间内发生故障),若已知λ(即给定时间区间内的事件平均发生次数)且你感兴趣的是一个特定时间区间内的发生次数,这时可以用泊松分布。

Poisson分布是一种离散型分布,用于描述单位时间、空间、面积等的罕见事件发生次数的概率分布。如:

  • 每毫升水中的大肠杆菌数、
  • 单位时间(如1分钟)内放射性质点数、
  • 每1000个新生儿中某出生缺陷、多胞胎、染色体异常等事件出 现的例数、

Poisson分布要求观察结果相互独立,发生的概率p不变。

如,人群中传染性疾病首例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson 分布;又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细 菌数不能认为服从Poisson分布。

二、泊松分布

案例:爆米花,发生损坏的平均次数是每周3.4次,下一周不发生损坏的概率是多少,发生3次损坏的概率是多少?

泊松分布包括以下条件:

  1. 单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里。
  2. 已知该区间内的事件平均发生次数(或者叫做发生率),且为有限次数。该事件平均发生次数通常用希腊字母 λ(lambda )表示。

我们用X表示给定区间内的事件发生次数,加入一个星期内的损坏次数。如果X符合泊松分布,且每个区间内平均发生 λ 次,或者说发生率为λ,则写作:

X ~ Po(λ)

在求给定区间发生r次世故的概率时,可以用如下公式进行计算:

P(X=r) = e * λr /r!

λ=np为Poisson分布的总体均数

r 为观察单位内某稀有事件的发生次数;

e 为自然对数的底,为常数,约等于2.71828

例如,如果X ~ Po(2),则:

P(X=3) = e-2 * 2 3/3! = 0.180

E(X) = λ Var(X) = λ

若随机变量X服从Poisson分布,Y=2X是否服从Poisson分布?

  • 若服从Poisson分布的随机变量可能取值为0,1,2,…;但Y的 可能取值为0,2,4,…,与Poisson分布随机变量的可能取值不符。
  • 若X的总体均数和方差为μ,则Y的总体均数为2μ,总体方差为4μ, 总体均数≠总体方差。

泊松分布是何形状?

泊松分布的形状是随着λ的数值发生变化。λ小,则分布向右偏斜,随着λ变大,分布逐渐变得对称。 如果λ是一个整数,则有两个众数,λ 和 λ-1,如果λ不是整数,则众数为λ

如果对独立事件进行组合?

如果X ~ Po(λx) 且 Y ~ Po(λy),则: X + Y ~ Po(λx + λy)

泊松分布、二项分布、正态分布有何关系?

X ~ B(n,p),当n较大而p较小事,X则可以近似表示为:

X ~ Po(np)

当实验次数n趋向于无穷,试验成功的概率p趋向于0,且满足np=λ时,泊松分布可由二项分布的极限得到。

当 λ>20时,Poisson分布可视为近似正态分布。

二项分布中np ≥5,且n(1-p)≥5,可近似于正态分布

三、泊松分布的应用

1、概率估计:

如果某地新生儿先天性心脏病的发病概率为8 ‰,那么 该地120名新生儿中有4人患先天性心脏病的概率有多大?

λ = np = 120 * 0.008 = 0.96

P(4)= e -1.96 * 0.96 4/4! = 0.014

2.累计概率计算

某100cm2的培养皿中平均菌落数为6个。今用100cm2的培养皿进行培养,试估计每一个培养皿中菌落数小于3个的概率,大于1个的概率。

P(X<3) = P(X=0) +P(X=1) + P(X=02) = 0.062 P(X>1) =1- P(0)= 0.983

3.某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。

P(X >400)= 1-P(X ≤ 400)≈ 1- f((400+0.5-360)/√360)=1-f(2.135)=0.0164

该放射性物质半小时内发出的脉冲数大于400个的概率为0.0164。

参考资料:

《深入浅出统计学》

梳理统计与数据分析(具体详见这本书)

中山大学课程 《医学统计学》方积乾

二项分布http://baike.baidu.com/view/79831.htm?fr=aladdin

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学