【2.2】二元预测的特异性和灵敏性
一、特异性和灵敏性的概念
某地在一段时期之内发生了5次地震和5次雷阵雨。有两台地震探测仪A和B。A探测到了7次 地震,其中包括5次真正的地震和2次雷阵雨;B探测到了3次地震,3次都是真正的地震。
A的结果:
Sensitivity = TP/(TP+FN) = 5/(5+0) = 100%; Specificity = TN/(TN+FP) = 3/(3+2) = 60%
宁可选错也不漏选
B的结果:
Sensitivity = TP/(TP+FN) = 3/(3+2) = 60%; Specificity = TN/(TN+FP) = 5/(5+0) = 100%
宁可不选也不选错
二、富亮氨酸重复序列的预测
富亮氨酸重复序列(LRR)是一个氨基酸片段,广泛存在于病毒、原核生物与真核生物 的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、RNA加工、病毒入侵及免疫应答等过程中起到了关键性。它往往在一个蛋白质分子中首尾相接的重 复几遍甚至几十遍,当然,每次重复的序列并非完全相同。LRR具有一个特征性序列模 板LxxLxLxxNxL。
- 从目前已知的所有Toll样受体蛋白质序列(>2500)中半手动的精确划分出了5万多个单个的LRRs。
- 把这5万多个LRRs作为标准数据组,从中构建出一个预测模型,来详细描述 一个LRR的序列特征并可预测一个蛋白质序列中是否含有LRR ,有的话每个 LRR 的起始位置在哪里。
- 位点特异性加权矩阵(Position-Specific Weight Matrix)。
- 根据已知5万多个单个LRRs,算出每个位置上,每个aa出现的频率(%),得出一个得分矩阵
- 根据得分矩阵,对任意11个碱基的一段序列的每个位置出现每个aa的频率进行求和
- 根据sensitivity和specificity,确定cutoff
cutoff 如何确定?
简单的方法:
- sensitivity和specificity交点 ( 网页工具 TollML 采用的方法)
- sensitivity和specificity加起来后选择
参考资料:
山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn