【3.3.2】二级结构的预测

蛋白质结构预测意义:

  • 目前对结构知识得了解仍然相当有限,因为实验确定蛋白质结构的过程非常缓慢,而且大量的蛋白质结构不能通过实验方法测得。
  • 已知空间 结构的蛋白质在 PDB 数据库里毕竟只有 10 万多个,然而,UniprotKB 数据库里却有几百万 条蛋白质序列。也就是说,绝大多数蛋白质的空间结构还都未知。这些蛋白质的二级结构又 如何知晓呢?这是人们进行蛋白质结构预测的主要驱动因素之一。
  • 另一个因素是结构的认识有利于进一步认识蛋白质的功能。
  • 另外许多药物选择性地结合靶蛋白,而蛋白质结构的知识可以有助于合理的设计药物(药物分子根据它作用的蛋白质分子的结构来设计)。

这就需要用计算机软件来预测蛋白质的二级结构。预测的结果和真实情况会 有一定出入,究竟差多少,取决于预测软件的准确度。可以预测蛋白质二级结构的软件很多, 而且都可以在线使用。表 1 列出了一些常用的在线预测软件。

软件名称 网址链接
PSIPRED http://bioinf.cs.ucl.ac.uk/psipred
Jpred3 http://www.compbio.dundee.ac.uk/www-jpred/
PREDICTPROTEIN http://www.predictprotein.org/
SSpro http://scratch.proteomics.ics.uci.edu/
PSSpred http://zhanglab.ccmb.med.umich.edu/PSSpred/
PREDATOR http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::predator
GOR V http://gor.bb.iastate.edu/

二级结构预测

二级结构预测常常被认为是预测蛋白质结构的第一步。

二级结构预测并不能得出蛋白质中原子的空间位置,而是对每个残基二级结构状态进行预测,即预测该残基是处于螺旋、折叠或无规卷曲中的哪一种,因此这种预测有时也被称为三态预测。

Chou-Fasman方法与GOR法:

使用氨基酸对二级结构的偏好性这个信息。

这种基于局部氨基酸组成的单一序列预测方法的精度相当低,通常,预测出处于正确二级结构状态中的残基比例要低于60%。

利用进化信息进行预测:

20世纪90年代初,人们意识到利用多序列比对得出的进化信息,可以显著地提高二级结构预测的质量。如残基对某种类型的二级结构有高度偏好保守模式信息序列和结构数据库中数据发生了爆炸式的增长,使得二级结构预测算法可以利用的进化和结构信息也大为增加;加之多序列比对算法本身的改善,促使二级结构预测的精度大大提高。

技术方法:

  • PSI-PRED:人工神经网络模型(next)
  • PHDSec:人工神经网络模型http://cubic.bioc.columbia.edu/predictprotein/
  • JPRED:三层神经网络方法http://www.compbio.dundee.ac.uk/~www-jpred/submit.html :

这些方法的准确率都在70%以上,公认预测精度最好的是PSI-PRED

PSI-PRED http://bioinf.cs.ucl.ac.uk/psipred/

PSI-PRED用到了两级神经网络。它首先用PSI-BLAST迭代搜索序列数据库,并根据搜索出来的蛋白质建立目标蛋白质的profile (序列谱),从而将蛋白质氨基酸序列用profile来表示,对每个位点最终选择前后共15个位点组成一个窗口(windows)输入神经网络进行二级结构预测。

PSI-PRED的预测准确率可达75%。

跨膜片段的预测:

  • 标准二级结构预测方法应用到跨膜蛋白的预测中结果非常的糟糕
  • 依靠疏水残基片断来进行预测( ※)

PSIPRED

我们以 PSIPRED 为例,看看如何从氨基酸序列预测二级结构。PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred)是一个蛋白质序列分析平台,它不仅可以预测二级结构, 还有很多其他分析功能,比如预测三级结构。选择第一个“PSIPRED”工具,即,预测蛋白 质二级结构的工具。输入的氨基酸序列(见附件 psipred.fasta)在 PDB 数据库中已有对应的 空间结构(PDB ID:3CIG),因此二级结构也是已知的。之所以输入这样一条序列,是为 了将预测结构和真实结构进行比较,从而评估一下软件的预测准确度如何。预测一般需要 30 分钟。可在线等待结果,也可以查收结果邮件。需要注意的是,像大多数在线软件一样, PSIPRED 不支持免费的商业邮箱,比如 hotmail 或者 QQ 邮箱等。此外,最好给预测任务起 个名字。最后,点击“Predict”。

预测结果页面 Summary 标签下的内容所示,粉红色的位置是α螺旋出现的位置, 黄色的是β折片,没有底色的是松散的 coil 结构。如果预测出有错乱的结构也会被标出。目 前的二级结构预测软件,都只能预测出α螺旋和β折片,对其他不常见的二级结构单元并不进行预测。

现在,我们把 PSIPRED 预测结果和 DSSP 里的真实二级结构放在一起。绿色的是预测结果,粉色的是真实结构。可以看到图 6 中显示出的这部分结果里,绝大多数α螺旋和β折片,也就是 H 和 E,都被正确的预测出来了,只有少数几个短的β折片没有被预测出 来,准确度超过 90%。这样的表现,对于一个预测软件来说,已经是相当优秀的了。如果某 一个软件的预测结果心存疑虑,可以尝试用多个软件进行预测,最后把各个软件的结果综合 在一起。如果大多数软件都预测出来某个位置有螺旋,那么这个位置就应该有螺旋。如果只 有一个软件预测出某个位置有折片,而其他软件都没有预测出来,那么这个位置可能就是没 有。至此,无论是已有空间结构的蛋白质,还是未知空间结构的蛋白质,我们都已经掌握了 获得二级结构的方法了。

PS: 预测的原理是什么?后面可以了解一下。

参考资料:

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn