【4.4.2】视紫红质结构预测的现代同源性建模算法的比较研究

December 28, 2019 protein_design 阅读量：次

视紫红质（Rhodopsin）是七个在化学，生物学和现代生物技术中非常重要的α-螺旋膜蛋白。任何关于视紫红质特性和功能的计算机研究都需要高质量的三维结构。由于从实验中获得膜蛋白结构特别困难，因此仅基于其初级序列的三维视紫红质结构的计算机模拟预测是一项特别重要的任务。在过去的几年中，蛋白质结构预测领域取得了重大进展，特别是基于比较模型的方法。然而，这种进展的大部分是针对可溶性蛋白的，需要进一步研究以实现膜蛋白的相似进展。在本文中，我们评估了现代蛋白质结构预测方法（在Medeller，I-TASSER和Rosetta软件包中实现）的性能，以预测其视紫红质的结构。考虑了三种广泛使用的方法：两种通常用于可溶性蛋白的通用方法，以及一种使用对膜蛋白特有的限制的方法。测试库由36个具有不同序列相似性的靶模板对组成，这些对模板是根据RCSB数据库中的24个实验视紫红质结构构建的。结果，我们证明了所有三种考虑的方法都可以得到视紫红质结构，其质量接近晶体学上的质量（预测结构从相应X射线结构到1.5Å的均方根偏差（RMSD）），如果目标模板序列同一性高于40％。此外，如果目标模板序列同一性高于20％，则所有考虑的方法都将提供平均质量的结构（RMSD <4.0Å）。这种结构随后可用于进一步研究蛋白质功能的分子机制，并用于开发基于蛋白质的现代生物技术。

一、介绍

获得三维蛋白质结构是结构生物学的中心任务之一。现代衍射和NMR方法可以获取质量从平均到高的结构。然而，实验方法不是快速且便宜的，并且即使实验获得的结构的数量不断增加，它们也受到限制。对于膜蛋白而言，缺乏实验结构尤其如此，因为膜蛋白的结晶具有挑战性。这些困难要求开发可靠的计算结构预测方法（有关综述，请参见参考文献（1-6））。通常，存在三种不同的方法：从头建模，线程化和同源性建模。

第一种方法是从头开始建模（ ab initio modeling），它是根据物理原理预测结构的。尽管此方法是最通用的方法，但由于其准确性低且需要大量的计算资源来研究蛋白质的广泛构象空间，因此并未得到广泛应用。因此，到目前为止，使用该方法仅能成功预测出小蛋白的结构。
第二种方法，穿线法（threading）。基于两个原理：（1）紧密的一级序列折叠成相似的结构和（2）蛋白质可能的结构折叠数是有限的，这意味着即使非同源蛋白质也可以具有相似的结构。在这种方法中，将目标蛋白的氨基酸序列“穿线”到合适模板的结构上，然后进行局部结构重排和优化。本身通常不使用穿线，而是将其与其他计算结合技术。
在第三个也是最成功的方法，homology (or comparative) modeling，蛋白质的结构是基于进化紧密模板蛋白质的三维结构构建的。紧密同源物可以用作“起始近似”。 ”以进行进一步的优化和模型预测。

同源性建模的流程通常分为四个步骤：

找到最佳模板；
靶标-模板序列比对；
结构构建（structure building;）
模型评估。提出了许多统计驱动和物理驱动的比对算法，以提高目标模板的比对质量。

对于结构构建步骤，主要使用以下三种方法：

刚体重组（rigid-body reassembly），碎片匹配和满足空间约束。在刚体重组中，模板中与靶蛋白相似的部分以适当的顺序发挥和组装。
在片段匹配方法中，共享（来自比对）残基的Cα原子由框架，随后逐渐从数据库中提取合适的片段。
为了满足空间约束方法，同时引入了两种类型的几何约束：模板派生和立体化学数据库派生。更具体地说，首先通过某种近似方法获得目标结构的第一近似。然后，通过最大限度地减少违反所有约束的情况来重组目标结构。

现代同源性建模算法采用了结构构建方法的组合。为评估此类结构预测方案的质量/局限性，进行了不同的基准测试和竞争。该领域的主要比赛是对蛋白质结构预测的关键评估（ CASP， critical assessment of protein structure prediction）和连续自动模型评估（CAMEO，continuous automated model evaluation ）。然而，这些基准测试主要针对可溶性蛋白。实际上，膜蛋白的同源性建模的评估尚未广泛开展，而膜蛋白是此处关注的蛋白类别。膜蛋白结构预测的直接方法是转移已为可溶性蛋白开发的方法，无需进行任何更改。这种方法必须通过广泛的基准验证。另一方面，考虑到特定膜蛋白特征的方法正在出现，它们也必须进行测试。

在本研究中，我们对几种现代蛋白质结构预测方法进行了基准研究（两者均针对可溶性蛋白质和膜特异性方案而开发）。作为测试库，我们从视紫红质家族中选择蛋白质。视紫红质在自然界广泛传播，对于现代技术（如光遗传学，活细胞成像，）和新生物开关的开发至关重要。计算化学可以通过提供能够预测特定特性或功能的视紫红质模型来帮助这些领域的发展。例如，量子力学/分子力学（QM / MM）模型具有模拟光谱和反应性的能力。出于这个原因，目前对视紫红质QM / MM模型的自动构建产生了兴趣。其中一位作者最近在文献中报道了其中一种方法（自动视紫红质建模，ARM）。然而，自动生成需要高质量的三维结构作为输入。因此，鉴于此类家族可用实验确定的结构数量有限（仅23种晶体学和1 NMR独特结构），同源性建模技术对于开发这些类型的技术变得极为重要。

如下所述，我们研究了几种现代同源性建模方法。因此，本报告首先评估了蛋白质序列比对的不同算法（同源性模型构建流程中的步骤2）对最终模型质量的影响。然后，我们继续评估在Modeller，I-TASSER和Rosetta软件包中实现的三种结构构建算法的性能（step 3 in the same pipeline）。对于球形蛋白质，Modeller， I-TASSER和Rosetta在CASP或CAMEO竞争中表现出优异的性能。因此，对于我们的测试，我们选择Medeller（这是在Modeller中实施的方法的面向膜的类似物），I-TASSER和Rosetta，其中力场中包含膜特定的术语。

为了明确评估最终同源性模型的质量，我们决定生成视紫红质的同源性模型，其结构已通过实验确定。这样，我们可以使用通用指标例如，均方根偏差（RMSD）和高精度全局距离检验（global distance test-high accuracy,GDT-HA）将生成的模型与相应的实验结构进行比较。此外，为了从原子学的角度进一步评估建模的质量，我们对形成视紫红质活性位点的氨基酸侧链的构象进行了比较分析。因此，我们形成实验结构对，并使用该对中的一个作为模板，使用另一个作为目标，反之亦然。因此，对于每一对，我们测试两个生成的同源性模型。正如我们在下面详细介绍的，在本研究中，我们预测了252个同源性模型，可用于目标模板序列同一性在15％到92％之间的情况。结果表明，正确选择模板和方法可使构建的视紫红质结构接近晶体学。

二、方法

在这项工作中研究的所有实验蛋白质结构均来自RCSB数据库。

2.1 比对 Alignment

测试了靶标和模板的成对序列比对的三种算法（下面的1-3）和多重序列比对的两种算法（4、5）：

该算法将环境特定的替换矩阵和空位罚分与进化信息结合在一起。通过考虑每个残基的溶剂可及性，S–S键和氢键，可以从模板结构预测蛋白质跨膜（TM）区域。该算法在MP-T程序中实现。
该算法利用Needleman-Wunsch方案，以疏水性谱和模板结构拓扑的形式补充了特定的膜蛋白信息。该算法在AlignMe套件中实现。
该算法以序列图谱的形式结合了有关靶蛋白和模板蛋白的进化信息，并使用了模板二级结构和疏水性预测的信息（基于Needleman–Wunsch算法）。这种对齐在MUSTER程序中实现。
该算法基于隐马尔可夫模型的应用，并且不使用任何特定的膜蛋白信息。该算法在Clustal Omega程序中实现。
该算法基于经典的 progressive alignment protocol，并使用有关蛋白质中跨膜区域的拓扑结构和位置的其他信息。该算法在PralineTM程序中实现

2.2 结构构建 Structure Building

测试了三种结构构建算法：

该算法在人为约束的指导下构建结构。模板跨膜区域的中心部分被认为是高度保守的，并且被用作模型核心。然后根据特定规则将残基一一添加，这些规则具有特定于膜的取代分数形式。通过段匹配方法构建柔性区域-从晶体结构和能量数据库中选择合适的片段，此方法在Medeller程序中实现。
该算法使用不同方法的组合。该框架是通过刚体重组（rigid-body reassembly）方法构建的。其余部分从头开始构建。对于初始模型，在基于知识的能量函数，空间约束和考虑氢键网络的术语的指导下，进行了两轮副本交换蒙特卡洛建模。将第一轮的模型进行聚类，第二轮的模型从每个聚类的质心模型开始。该算法在I-TASSER套件中实现。
同样，该算法使用不同方法的组合。该框架是通过刚体重组方法构建的。其余部分从头开始构建。在物理逼真的（realistic）能量函数与空间约束相结合的指导下，对初始模型执行了两轮蒙特卡洛建模。第二轮从第一轮的最低能耗模型开始。对于膜蛋白，能量功能的物理现实部分会发生变化，从而有利于膜的性质。该算法在Rosetta套件中实现。

三、结果与讨论

3.1 具有已知三维结构的视紫红质的聚类

我们分析了RCSB数据库，发现了24种独特的视紫红质结构（不包括突变体，光循环中间体，无阴离子的卤素视紫红质和具有不同于Cl-的阴离子的卤素视紫红质）。如果数据库包含同一蛋白质的多个结构，则使用质量最高的结构（Jan，2017）。为了聚集这些蛋白质，我们检查了所有蛋白质对。如果两种蛋白质的序列同一性值高于40％（两种蛋白质之间的序列同一性定义为在相应的成对序列比对中相同氨基酸的百分比），则认为这两种蛋白质属于同一簇。由于相似性可能严重取决于序列比对，因此我们测试了MP-T，AlignMe和MUSTER算法以比对每对。因为所有算法都给出了相似的序列identity值，所以我们在聚类过程中使用了AlignMe的结果。

我们选择来自盐杆菌的细菌视紫红质作为开始聚类的参考蛋白。所得细菌视紫红质簇包含七个结构。然后，我们通过使用细菌视紫红质簇中未包括的参考视紫红质检查序列同一性来构建其他簇。这样，我们总共生成了13个群集。为了标记每个簇并定义其与细菌视紫红质簇的距离，我们选择了与盐沼嗜血杆菌视紫红质具有最大同一性的簇成员。结果聚类及其距离用颜色编码（每个聚类的成员都用相同的颜色标记），如图1所示。

3.2 目标模板对的构造

为了定义一组代表性的靶模板视紫红质对，我们假设在簇中找到最佳对。因此，我们使用了以下策略。从细菌视紫红质和细菌视紫红质的两个最大簇中，我们分别选择了三对和两对（见表1）。请注意，由于我们的主要目标是获得具有不同水平序列同一性的对，并且在细菌视紫红质簇中，可能的对仅显示稍有不同的同一性（不包括古细菌视紫红质蛋白对1和古细菌视紫红质对2），因此我们决定从21对中选择3对出于同样的原因，对于蛋白视紫红质簇，我们从三对中选择两对。三个簇包含两个视紫红质，每个视紫红质给出了另外三个目标模板对。其余的八个簇仅包含单个视紫红质，因此，这些视紫红质必须与来自不同簇的视紫红质配对。

除上述配对外，我们还考虑了盐杆菌H. salteriorrum bacteriorhodopsin和一个代表性视紫红质形成的10个额外对，这些其余对的特征是序列同一性高于15％。请注意，即使通常在序列同一性高于30％的情况下执行同源性建模，我们还是决定研究序列同一性在30％到15％之间的“灰色区域”，以了解现代同源性建模算法在这些情况下如何工作。总之，我们的研究集中在18个目标模板对上。

3.3 不同方法论的比较

如上所述，我们比较了三种不同的序列比对算法对预测模型质量的影响。以下是在程序包MP-T，AlignMe和MUSTER中实现的算法。然后将比对的序列用于研究在Medeller，RosettaCM和I-TASSER程序中实施的三种同源性建模策略的性能（请参见“方法”部分中的详细信息）。

每种方法的性能评估如下：来自相应实验结构的Cα-RMSD> 4Å或GDT-HA <45％的预测模型被认为是失败的（这些失败的结构将在本节后面进行分析）。对于其余的预测模型，我们对整个蛋白质和跨膜（TM）区域均进行了统计分析（即在最后一种情况下忽略了外部）。结果在表2和3的图2-4中给出。

比较了三种结构构建算法与不同序列比对方法相结合的性能。在表2中，表示了针对靶蛋白和模板蛋白来自同一簇的情况获得的数据的统计分析（来自8个靶模板对的16个模型）。该表显示，所有方法均提供小于2.5Å的平均Cα-RMSD值和大于60％的GDT-HA平均值，最佳值分别为RMSD小于1.5Å和GDT-HA大于75％。对于TM区域，这些值仅稍高一些，这意味着在这种情况下，柔性部件也可以准确包装。表3列出了所有成功模型的统计分析。它表明，当包括靶模板序列同一性低于40％的病例时，平均RMSD和GDT-HA值不会显着恶化。仍可以用2埃左右的RMSD预测结构。

在图2和图3中，针对不同的结构构建算法分析了模型质量对目标模板对序列同一性的依赖性。结果显示，对于Cα-RMSD（图2）和GDT-HA（图3）指标，这三种算法的趋势相似。具有少于55％序列同一性的模板-靶对的质量逐渐下降。但是，高达20％的序列同一性仍可能很高。这些发现与以前的研究相一致，这些研究考虑了G蛋白偶联受体（GPCR）的比较模型。在图4中，这种依赖性也可以通过聚类可视化。在这种聚类中，当结构构建算法基于模板B生成目标A的模型时，每对蛋白质（例如A和B）之间的距离就更高，反之亦然，质量较低。我们基于AlignMe对齐的每种算法的Cα-RMSD（图4，图a，c，e）和GDT-HA（图4，图b，d，f）指标进行了此类聚类。对于将一对预测模型中的一个预测模型（例如，目标A和模板B）视为失败的情况，仅将单个成功结果（例如，具有模板A的对应目标B）用于聚类，因为在统计分析中不包括第二个值。在其他情况下，将这两个值取平均值以提供距离值。对于配对成员均不成功的情况，将使用两个值中的最佳值。对这些结果的分析表明，所得的聚类与基于序列同一性的聚类仅稍有不同（图1）。而且，获得的簇彼此相似。平均而言，我们研究中考虑的结构构建方法可提供相似质量的模型，即使在低序列同一性区域也没有明显的陷阱。

结果表明，Modeller有时很难预测柔性区域（不是在TM部分）。例如，使用法氏假单胞菌的卤素视紫红质的结构作为模板，预测法N. pharaonis模型（3a7k）的卤素视紫红质的Cα-RMSD等于4.657Å。但是，同一型号的TM部分的RMSD仅为0.844Å。另一个例子是基于古细菌视紫红质2的结构预测的H. salinarum模型（全蛋白的Cα-RMSD为3.393，TM部分的Cα-RMSD为0.654）。

我们可以看到，即使目标模板对序列同一性非常低，Modeller也会为TM部分生成具有较低Cα-RMSD值的模型。实际上，这种趋势对于所有算法都是相似的。通常，结果表明，对于靶模板序列同一性高于40％的情况，可以预测平均Cα-RMSD值低于1.5Å和平均GDT-HA值高于75％的结构。在序列同一性值介于50％和55％之间的区域中，结构的质量逐渐下降。

我们的分析表明，结构构建方法的最佳选择取决于模型的尾部和环部是否必不可少。在考虑AlignMe提供的对齐方式时，Medeller可为TM零件提供最佳结果。对于柔性区域的结构至关重要的情况，最好的选择是I-TASSER。

为了评估所选择的结构构建方法可以很好地表示``蛋白质功能''，我们对形成视紫红质活性位点的氨基酸侧链进行了视觉研究（图5）。这对应于具有视网膜质子化Schiff（即视紫质生色团）的一种异构体的腔。结果表明，尽管梅德勒重现了蛋白质的这一功能上重要的部分，但I-TASSER和RosettaCM却给出了几个指向腔中心的侧链，导致生色团插入时发生空间冲突。由于Modeller在跨膜区域的构建过程中使用了强大的几何约束，因此可以预期得到此结果。这些限制条件（主要是从模板中获取）允许“记忆”效应复制模板的空腔结构，因此，复制生色团(chromophore)本身。另一方面，在侧链的能量最小化过程中，I-TASSER和RosettaCM算法不受约束。因此，在结构构建期间，由于丢失了有关视网膜发色团的信息（即，空腔是中空的），空腔侧链的最有利于能量的方向是朝向空腔的中心，从而使空腔结构的预测成为问题/不切实际。 I-TASSER和RosettaCM的进一步发展允许包含辅助因子，将改善该区域预测结构的质量。例如，在图5中，我们比较了以盐藻嗜血杆菌BR的晶体学结构为模板（序列同一性为55％）的古细菌视紫红质2模型的视网膜结合袋与所有三种结构构建方法的预测结果。

为了评估这些侧链方向的差异如何影响插入生色团（chromophore）的模型的质量，我们将视网膜添加到这些模型中，并在Charmm27力场中的分子力学水平上进行了简短的几何优化。插入视网膜生色团我们在目标模型上叠加了包含视网膜的模板晶体结构。因为视网膜结合袋在同源视紫红质之间共享非常相似的构象，所以叠加是准确的。然后，我们可以从叠加的模板结构中提取视网膜的坐标，然后将其移动到目标结构中。在I-TASSER模型和Rosetta模型中的视网膜插入显示了视网膜的几个立体紧贴，周围有氨基酸。通过后续的几何优化消除了这些冲突。在Modeller模型中，视网膜的插入与视网膜袋的氨基酸没有发生任何明显的碰撞。换句话说，尽管在预测的模型中发色团周围的几个氨基酸侧链的构象是错误的，但随后的视网膜和几何结构优化的插入纠正了大多数问题（图6）。

而且，正如我们最近的工作所证明，当预测古细菌视紫红质3的结构时，发现了I-TASSER模型的优势。梅德勒（Medeller）预测第七个螺旋的末端有七个TM螺旋和一个长尾巴，而I-TASSER则预测了一个半螺旋和一个短尾。即使古细菌视紫红质3没有实验结构，I-TASSER模型似乎更为现实。

对失败模型的分析表明，当目标模板序列同一性较低时（主要是当目标序列比模板序列长时），就会发生低质量的预测。失败的模型的例子是基于盐杆菌H. salinarum BR（227个残基）的香豆视紫红质（294个残基）和嗜热性视紫红质（251个残基），序列同一性分别为15％和24％。同样，基于盐沼嗜血杆菌BR（227个残基）（序列同一性为19％）对KR钠泵（273个残基）的预测不仅仅针对具有AlignMe和MUSTER比对的I-TASSER建模而失败。基于H. salinarum BR（227个残基）的HOT75（232个残基）对蓝光PR的预测（序列同一性为25％）不仅仅针对具有AlignMe比对的Medeller模型失败。在某些情况下，反向结构预测也给出了不令人满意的结果。最终，尽管这两种蛋白质来自同一簇，但来自HOT75的绿光PR +蓝光PR对的模型在所有情况下均失败。此问题可能与绿光PR的实验结构的质量有关，绿光PR的实验结构是使用NMR方法而非晶体学获得的。

3.4 使用多个模板建模

我们还测试了通过使用多个模板来提高结构预测质量的可能性。为此，我们使用RosettaCM算法和两种用于多序列比对的算法：ClustalO和PralineTM。使用单个模板，将得到的结构与RosettaCM和其他算法预测的最佳模型进行比较（表4）。

结果表明，对于除一种情况以外的所有情况，使用多个模板都会降低模型质量。这一结论与其他研究者报告的结果一致。

四、结论

我们已经报道了使用不同同源性建模方案对预测的三维视紫红质结构的质量的研究。更具体地说，我们在两个级别上对不同的同源性建模协议进行了基准测试：序列比对和结构构建。然后通过与已知的晶体学结构进行比较来评估预测模型的质量。我们总共预测了252个结构，用于目标模板对序列同一性介于15％到92％之间的情况。

我们的调查可以得出几个结论。

Modeller协议有时无法很好地预测视紫红质的柔性区域。但是，即使目标模板序列同一性非常低，Modeller生产的模型的TM部分也具有很高的质量。
同源性建模方法的选择取决于对环和尾的要求。如果柔性区域的质量很重要，则应使用具有AlignMe对齐功能的Modeller协议。否则，应使用具有相同对齐协议的I-TASSER协议。
使用所有三种模型构建算法可以正确预测视紫红质的活性位点。但是，对于通过Rosetta或I-TASSER协议预测的模型，在插入生色团后需要进行额外的几何优化以消除空间冲突。
使用多个模板不会导致模型质量的提高。这一发现与其他著作中报道的结果相吻合。

通常，结果表明，最新的正确模板和方法选择使得能够以接近于实验结构的质量预测视紫红质模型，而此前，仅针对球状蛋白就声称这种结构[6,19]。如果目标模板相似性（> 40％），则相对于实验参考，可以预测平均Cα-RMSD小于1.5Å，平均GDT-HA大于75％的结构。此外，即使对于序列同一性低得多（高达15％）的靶模板对，也可能获得平均RMSD约为2Å且GDT-HA值高于65％的模型，但是在这一区域中，每个模型都必须考虑个别情况。

我们的工作结果可用于视紫红质蛋白的计算机辅助工程设计，并可能应用于光遗传学和分子成像技术等领域。的确，预测高质量三维视紫红质结构的能力是对其光谱学和光化学功能进行计算研究的必不可少的步骤。例如，同源性建模是朝着更有效地自动构建QM / MM模型（例如，作为最近提出的ARM协议）迈出的重要一步。因此，选择有效的同源性建模方法，以及进一步开发合适的QM / MM方法，可以通过合理设计或随机突变方法来促进针对上述技术的基于视紫红质的新工具的实现。而且，我们基准测试的结果可能会扩展到其他类别的膜蛋白，例如GPCR，如今也已被广泛研究。

参考资料

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6068592/ 。ACS Omega. 2018 Jul 31; 3(7): 7555–7566. Published online 2018 Jul 9. doi: 10.1021/acsomega.8b00721 . A Comparative Study of Modern Homology Modeling Algorithms for Rhodopsin Structure Prediction

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn