【4.2.2】蛋白质二级结构预测--Chou-Fasman

  • Chou-Fasman方法是一种用于预测蛋白质二级结构的经验技术,在1970年由Peter Y. Chou 和 Gerald D. Fasman提出。
  • 该方法基于基于通过X射线晶体学解决的已知蛋白质结构,对α螺旋,β折叠和转折中每个氨基酸的相对频率的分析。 从这些频率中,得出了每种二级结构类型中每种氨基酸的外观的一组概率参数,这些参数用于预测给定氨基酸序列形成螺旋,β链或α的概率。
  • 该方法在识别正确的二级结构方面最多可达到50-60%的准确度,远低于GOR方法或基于现代机器学习的技术。

每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Glu主要出现在α螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在α螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋

在Chou-Fasman方法中,这几个因子是Pα、Pβ和Pt,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。根据Pα和Pβ的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。

一、算法介绍

在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则:

1.1 α螺旋规则

  1. 寻找核.沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺旋,即有4个残基对应的Pα>100,则认为是螺旋核。注意,是6个中的任意4个大于100即可,不需要连续。
  2. 扩展。从螺旋核向两端延伸,直至四肽a片段Pα的平均值小于100为止,注意,这里是指连续四个残基的平均值。 

按上述方式找到的片段长度大于5,并且Pα的平均值大于Pβ的平均值,那么这个片段的二级结构就被预测为α螺旋。此外,不容许Pro在螺旋内部出β,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。

1.2 β折叠规则

  1. 寻找核,如果相邻5个残基中若有3个倾向于形成β折叠,即有3个残基对应的Pβ>100,则认β为是折叠核。
  2. 扩展,折叠核向两端延伸直至4个残基Pβ的平均值小于100为止。

1.3 重叠规则

假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域Pα均值和Pβ均值的相对大小进行预测,若Pα的均值大于Pβ的均值,则预测为螺旋;反之,预测为折叠。如果折叠区域重新分配后,剩下的螺旋或者折叠的长度小于5,则取消其分配的二级结果。

1.4 转角规则

转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基片段,将上述概率相乘,根据计算结果判断是否是转角。如果a,f(i)×f(i+1)×f(i+2)×f(i+3)>7.5×10-5,b, 四肽片段Pt的平均值大于100,c,并且Pt的均值同时大于Pα的均值以及Pβ的均值,则可以预测这样连续的4个残基形成转角。

Chou-Fasman预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。

二、算法实现

具体代码见:

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn