【4.4.3】蛋白质结构预测的分水岭

A watershed moment for protein structure prediction

寻求从其氨基酸序列预测蛋白质的3D结构的方法的研究的两个思路已经完全交织在一起。 结果是预测准确性的飞跃。

蛋白质几乎可以执行或催化细胞中的所有化学和机械过程。 大多数蛋白质被合成为氨基酸残基的线性链,自然而然地折叠成一个或少数几个有利的三维结构。 氨基酸序列指定蛋白质的结构和运动范围,进而决定其功能。 几十年来,结构生物学家通过实验确定了数千种蛋白质结构,但是这些研究的困难使人们有望从序列诱变中预测蛋白质结构的计算方法。 Senior等人在《自然》(Nature)一书中描述了一种算法AlphaFold,该算法通过采用现代机器学习技术,在解决这一经典问题方面迈出了一大步。

蛋白质结构的多样性排除了获得简单折叠规则的可能性,从而使结构预测变得困难。 蛋白质折叠最终由量子力学驱动。 可以根据量子理论计算蛋白质分子的确切能量,并针对每种可能的构象进行计算,然后预测蛋白质最受能量支持的结构将很容易。 不幸的是,蛋白质的量子处理在计算上是棘手的(量子计算机可能会改变这种情况),任何蛋白质都可能采取的全部可能构象的集合是天文数字的,从而禁止了这种蛮力方法。

这并没有阻止科学家尝试对该问题进行直接攻击。 物理化学家已经为蛋白质设计了易处理但近似的能量模型,而计算机科学家已经开发出探索蛋白质构象的方法。 在第一个问题上已经取得了很大的进步,但是第二个问题被证明更加顽强。

蛋白质可能采取的一组形状可以比喻为景观(landscape):景观中的不同位置对应于不同的形状,附近的位置具有相似的形状。 位置的高度对应于相关形状在能量上的有利程度,最低点为最有利。 天然蛋白质进化成具有漏斗状的景观,使新合成的蛋白质在细胞的热波动的刺激下穿越景观,并在生理相关的时标(毫秒至分钟)内找到有利的构象。算法可以通过跟踪地形的倾斜度来搜索地形以找到有利的构形,但是地形的ruggedness性使它们陷入了远离最低盆地的低谷和低谷中。

随着一系列开创性论文5-7的发表,结构预测领域的进程发生了变化,探索了进化记录包含有关蛋白质如何折叠的线索的想法,这是近十年前发表的。 这个想法是基于以下前提:如果蛋白质中的两个氨基酸残基在3D空间中靠在一起,则用一个不同的残基(例如,大代表小)替换其中一个的突变可能会在 稍后的突变会沿补偿方向改变其他残基(在我们的示例中,从小到大交换)。 因此,共同进化残基(co-evolving residues )的集合编码了有价值的空间信息,并且可以通过分析进化相关蛋白的序列来找到。

通过将该共同进化信息转换成称为二进制接触图的矩阵,该矩阵编码哪些残基是最接近的残基,可以限制值得通过算法搜索考虑的构象集。 这进而使得有可能准确地预测最有利的蛋白质构象,特别是对于已知许多进化相关序列的蛋白质。 这个想法不是新的,但是在2010年代初期,可用序列数据的快速增长,再加上关键的算法突破,意味着它的时代终于来临。

在过去的几年中,协同进化分析一直是蛋白质结构预测中最主要的进展,但是它并未消除对搜索蛋白质能量分布的算法的需求:二元接触图(binary contact maps)限制了搜索空间,但没有固定 下一个单一的3D结构。 此外,支持将共同进化数据转换为联系图的数学方法受到所使用的输入类型和生成的输出的限制。 深度学习(一种机器学习)在共进化分析中的最初注入通过合并更丰富的输入改善了问题。 AlphaFold通过更改输出使事情更进一步。

代替二进制接触数据(binary contact data),AlphaFold预测残基被不同距离分开的概率。 由于概率和能量是可以相互转换的,因此AlphaFold预测出一种能量格局-在其最低盆地中与真实格局重叠,但更加平滑。 实际上,AlphaFold的地形非常平滑,几乎消除了搜索的需要。 这使得可以使用简单的过程找到最有利的构象,而不是其他方法采用的复杂搜索算法。

事后看来,复杂的搜索对于结构预测可能是不必要的想法并不奇怪。 在数学上,点之间的距离决定了它们的相对位置。 距离的预测因此可以预测结构。 此外,蛋白质能量态势的相对简单的模型称为Gō势,其中有利于实验确定残基之间的距离,可以导致类似于真实蛋白质经历的蛋白质折叠路径10。 这表明蛋白质的折叠更像是简单的折纸,而不是复杂的结(knot)-所有部分都可以一次融合在一起。 我自己的工作表明,无需搜索就可以使用深度学习模型隐式预测折叠11,并且在另一个深度学习模型中也嵌入了最少的搜索程序来预测蛋白质结构

AlphaFold值得注意的是,它可以以足够的精度预测距离,从而胜过最新的搜索方法(图1)。 Senior et al. 利用深度学习的进展从蛋白质序列中提取尽可能多的结构信息。 在最新的用于预测蛋白质结构的方法(CASP13事件)的盲目评估中,所得算法的表现优于所有参与者,在43种蛋白质中,有25种产生了最佳结构,而在第二种最佳方法中,则有43种产生了最佳结构。 AlphaFold的预测在这组蛋白质上的中位准确度为6.6Ångströms,也就是说,对于该组蛋白质中居中位的蛋白质,拟议结构中的原子平均偏离其实际位置6.6Å。

图1 | 蛋白质结构的预测。 Senior等人报告了一种称为AlphaFold的机器学习系统,该系统可以根据蛋白质的氨基酸序列预测蛋白质的3D结构。 模板建模(TM)分数以0到1的等级衡量预测的结构与实际结构的整体形状的匹配程度。TM的AlphaFold分数优于其他预测系统的盲人43种蛋白质中的25种 测试。 在此,在六种蛋白质的盲法测试中,将AlphaFold(红色)的TM得分与其他预测系统(灰色)的TM得分进行了比较,这六种蛋白质的3D结构只能根据其氨基酸序列进行建模-没有蛋白质的3D结构 具有相似氨基酸序列的序列可作为建模的起点。 AlphaFold对这六种蛋白质中的五种做出了最准确的预测。 (改编自参考文献1的图1b。)

挑战依然存在。 AlphaFold对于大多数应用而言还不够准确,例如弄清楚酶的催化机制或药物与蛋白质的结合方式(通常都需要2–3Å的分辨率)。 而且,尽管AlphaFold的搜索过程比大多数现代方法都简单得多,但它仍然可能很慢,需要数十至数百小时才能做出单个预测。 对于诸如蛋白质设计之类的需要对许多不同蛋白质序列的结构进行建模的应用而言,缺乏速度是一个障碍。

然而,这是该领域的分水岭。 考虑到可用蛋白质序列数量的持续增长,根据结构预测,由单个折叠结构域组成的大多数蛋白质的粗略结构(约4Å分辨率)可能会在未来五年内出现。 就像前几十年中的序列信息一样,结构信息的如此广泛的应用可能会改变生命科学。 这可能意味着,结合冷冻电子显微镜在蛋白质结构确定方面的快速进步 ,我们正在进入结构生物学的黄金时代-一个使生命科学的定量和机械基础成为可能的基础 结构假设。

参考资料

这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn