【2.2】二元预测的特异性和灵敏性

一、特异性和灵敏性的概念

某地在一段时期之内发生了5次地震和5次雷阵雨。有两台地震探测仪A和B。A探测到了7次 地震,其中包括5次真正的地震和2次雷阵雨;B探测到了3次地震,3次都是真正的地震。

A的结果:

Sensitivity = TP/(TP+FN) = 5/(5+0) = 100%; Specificity = TN/(TN+FP) = 3/(3+2) = 60%

宁可选错也不漏选

B的结果:

Sensitivity = TP/(TP+FN) = 3/(3+2) = 60%; Specificity = TN/(TN+FP) = 5/(5+0) = 100%

宁可不选也不选错

二、富亮氨酸重复序列的预测

富亮氨酸重复序列(LRR)是一个氨基酸片段,广泛存在于病毒、原核生物与真核生物 的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、RNA加工、病毒入侵及免疫应答等过程中起到了关键性。它往往在一个蛋白质分子中首尾相接的重 复几遍甚至几十遍,当然,每次重复的序列并非完全相同。LRR具有一个特征性序列模 板LxxLxLxxNxL。

  • 从目前已知的所有Toll样受体蛋白质序列(>2500)中半手动的精确划分出了5万多个单个的LRRs。
  • 把这5万多个LRRs作为标准数据组,从中构建出一个预测模型,来详细描述 一个LRR的序列特征并可预测一个蛋白质序列中是否含有LRR ,有的话每个 LRR 的起始位置在哪里。
  • 位点特异性加权矩阵(Position-Specific Weight Matrix)。

  1. 根据已知5万多个单个LRRs,算出每个位置上,每个aa出现的频率(%),得出一个得分矩阵
  2. 根据得分矩阵,对任意11个碱基的一段序列的每个位置出现每个aa的频率进行求和
  3. 根据sensitivity和specificity,确定cutoff

cutoff 如何确定?

简单的方法:

  1. sensitivity和specificity交点 ( 网页工具 TollML 采用的方法)
  2. sensitivity和specificity加起来后选择

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn