【3.1】贝叶斯简介

建议阅读:

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

一、公式

通常,事件A在事件B发生的条件下发生的概率, 与事件B在事件A发生的条件下发生的概率是不一样 的。然而,这两者是有确定的关系,贝叶斯公式就 是描述这种条件关系概率的公式。

设A、B是两个事件,在事件B发生的条件下事件,A发生的概率是 $$ P\left(A|B\right) = {\frac{A ∩ B}{P\left(B\right)}}$$ 同样的在事件A 发生的条件下事件B发生的概率是$$ P\left(B|A\right) = {\frac{A ∩ B}{P\left(A\right)}}$$ A、B的联合概率公式为 P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A)。上式两边同时除以P(B),若P(B)是非零的,我们就可以得到贝叶斯公司 P(A|B) = P(B|A)P(A)/P(B)

贝叶斯公式: $$ P\left(A|B\right) = {\frac{ P\left(B|A\right)P\left(A\right) }{P\left(B\right)}}$$

如果A是个二选一(非此即彼)的事件,那么 $$ P\left(B\right) = P\left(A ∩ B\right) + P\left(\bar{A} ∩ B\right) $$

其中 $$\bar{A}$$ 是A的补集(即非A)。故贝叶斯公式亦可写成: $$ P\left(A|B \right) = {\frac{ P\left(B|A\right)P\left(A\right) }{ P\left(B|A\right)P\left(A\right) + P\left(B| \bar{A}\right)P\left(\bar{A}\right) }}$$

在更一般化的情况,假设{Aj} 是事件集合里的某一事件,对于任意的Aj,i=1,2,…n,贝叶斯公式可用下式表示:

$$ P\left(A_{i}|B \right) = {\frac{ P\left(B|A_{i}\right)P\left(A_{i}\right) }{ \sum_{j=1}^{n} P\left(B|A_{j}\right)P\left(A_{j}\right) }}$$

二、应用举例

例子1:我真的得了艾滋病? 假设在一特定地区对任意一个人而言感染上AIDS的概率为 P (AIDS) = 0.001;没感染上的概率为 P (no AIDS) = 0.999。 任何一次AIDS的检验结果只有阳性(+)和阴性(-)两种

  • P(+|AIDS)=0.98 AIDS感染者检测结果为阳性的概率
  • P(-|AIDS)=0.02 AIDS感染者检测结果为阴性的概率
  • P(+|no AIDS)=0.03 AIDS未感染者检测结果为阳性的概率
  • P(-|no AIDS)=0.97 AIDS未感染者检测结果为阴性的概率

如果你不知道是否感染上了AIDS,只是去做了检验,而检测结果为 阳性(+)。那么你是否担心自己真 的感染上了AIDS?即P(AIDS|+)是多少?

例子1:我真的得了艾滋病?

已知:

P(AIDS)=0.001 P(no AIDS)=0.999 P(+|AIDS)=0.98 P(-|AIDS)=0.02 P(+|no AIDS)=0.03 P(-|no AIDS)=0.97

利用贝叶斯公式,检测结果阳性的条件下,是AIDS患者的概率为:

P(AIDS|+)= P(+|AIDS)P(AIDS) / ( P(+|AIDS)P(AIDS) + P(+|no AIDS)P(no AIDS) ) = 0.98x0.001 /(0.98x0.001+0.03x0.999) = 0.032

也就是说,你可能没什么问题!?

例子2:狼来了

《狼来了》的故事讲的是一个小孩每天到山上放羊,山里有狼出没。第一天,他在山上喊“狼来了,狼来了”,山下的村民闻声赶来,可到山上,发现狼没来;第二天仍是如此;第三天,狼真的来了,可无论小孩怎么喊叫,也没有人来救他,因为前两次他说了谎,人们不再相信他。通过贝叶斯公式,来看看小孩的诚信度是如何下降的。

首先,事件A为“小孩说谎不说谎”,事件B为“小孩可信不可信”,假设村民过去对这个小孩的印象为:

P(B) = 0.8 P(非B) =0.2

一般情况下,对一个普通的小孩的印象为: P(A|B) =0.1 P(A|非B) = 0.5

第一次村民上山打狼,发现狼没来,即小孩说了谎(A,村民根据这个信息,对这个小孩的可信程度改变 为:

$$ P\left(B|A \right) = {\frac{ P\left(A|B\right)P\left(B\right) }{ P\left(A|B\right)P\left(B\right) + P\left(A| \bar{B}\right)P\left(\bar{B}\right) }} = {\frac {0.1*0.8}{0.1*0.8 +0.5*0.2}} = 0.444$$

这表明村民上了一次当之后,对这个小孩的可信度由原来的0.8 调整为0.444。 P(B)= 0.444 P(非B) = 0.556

根据调整后的信息,我们再一次利用贝叶斯公式计算P(B|A),亦即这个小孩第二次说谎后,村民对他的可 信程度改变为:

P(B|A) = 0.1*0.444/(0.1*0.444 + 0.5*0.556) = 0.138

这表明村民经过两次上当,对这个小孩的可信程度从0.8下降 到了0.138。

三、贝叶斯的应用

1.贝叶斯方法在蛋白质耐热性分类中的研究

  • 从COG数据库中筛选到101868个常温蛋白质,3974个高温蛋白质和15187个超 高温蛋白质序列,作为标准数据集。
  • 把每一个蛋白质模型化为一个向量x,x的每一个维对应着一种氨基酸的含量, 20种氨基酸对应20个维度,即以一个20维的氨基酸含量特征向量x来表示一个 蛋白质。
  • 以基于贝叶斯公式的算法的机器学习方法对每个蛋白质进行耐热性分类。

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学