【4.7.1.1】蛋白结构比对的进展和挑战

June 05, 2019 mapping 阅读量：次

蛋白质进化研究仅凭序列比较无法实现，结构比较打开了一个研究蛋白质进化的窗口。蛋白质数据库中有55 000个条目，每周新增约500个结构，因此需要进行自动化处理，比较和分类。各种方法使用不同的表示，评分函数和优化算法，即使对于中等距离的结构，它们也会产生矛盾的结果。通过共同核心的塑性变形（plastic deformations）来适应序列突变，插入和缺失，保留活性位点的精确几何形状，并且外围区域可以完全重折叠。因此，允许灵活性和可塑性（flexibility and plasticity ）的结构比较方法产生最具生物学意义的比对。积极的研究方向既包括对折叠不变特征的搜索，也包括对进化中结构转换的建模。目前，在算法稳健性，多重对齐和加速数据库搜索方面取得了一些进展。

一、前言

蛋白质序列和结构的比较分析在理解蛋白质及其功能中起着重要作用。蛋白质结构的总种类比蛋白质序列的种类小得多。这通常被解释为物理限制和天然蛋白质的进化历史的结果。假设结构和功能的进化连续性，描述蛋白质结构之间的结构相似性关系，允许科学家推断新发现的蛋白质的功能。

结构比较的基础是通过视觉分析确定的，当时所有已知的结构都可以在综述（Richardson JS: Anatomy and taxonomy of protein structures. Adv Protein Chem 1981, 34:167-339.）中说明。视觉识别不相关蛋白质之间的复发折叠模式表明可能存在有限数量的可允许折叠。提出了蛋白质结构的分级分类法，其中同源蛋白质簇嵌套在折叠内，并且每个折叠分成四类中的一类。生成自动化聚类，其与手动和半自动分类广泛一致。最近，具有离散折叠的分层视图，让我们对于位于相关结构在折叠空间中形成细长簇并且折叠可以连续地变形有了一些的理解。

关于什么导致结构相似性没有普遍公认的定义，但是当我们看到它时我们都知道它。通过最小二乘叠加（least-squares superimposition）可视化结构对齐有一个强大的传统，最小二乘叠加将结构视为刚性3D对象。其他表示，例如距离差矩阵（distance difference matrice），提供有关内部运动的详细信息（图1a）。结构比对方法的范围包括刚性（rigid），柔性（flexible）和弹性对准器（elastic aligners），它们在结构变化的处理方面不同。在结构层面，突变表现为二级结构元素（secondary structure elements,SSE）的塑性变形(plastic deformations)，移位和旋转（shifts, and rotations）。例如，在珠蛋白家族中，它们的累积效应达到7 Å和60°。结构对齐通常是局部的，以便在共同核心和无法建立一对一结构对应的区域之间进行区分。

（图1图例）（a）刚性，柔性和弹性结构比较的示意图。较低，较轻的结构通过相对于左侧圆的右侧圆形点组的平移（通过d）与较高的较暗结构相关。右上：刚性叠加必须在较低的rmsd和较大的等效点集（equivalent points ，Ne）之间取得平衡。在这种情况下，可以获得五个点的完美叠加，或者所有八个点的更差叠加。灰色椭圆表示等效对。左下：灵活的叠加将结构分解为几个刚性子结构，并对每个子结构应用不同的刚体变换。链接处罚控制碎片（ Link penalties control fragmentation.）。右下：距离矩阵和接触图是蛋白质结构的表示，它们与坐标框架无关。距离差矩阵识别结构保守性和子结构之间的运动。（b）结构比对的主要目的是鉴定同源残基。脲酶和腺苷脱氨酶是具有共同活性位点的大型超家族的成员。上图：叠加结构的带状图（脲酶为白色，腺苷脱氨酶为灰色）。请注意广泛的装饰。下图：突出显示结构叠加中的保守金属结合和催化残基（通过DaliLite服务器，Ne = 210当量C（α）原子，rmsd = 3.5 A和13％序列同一性）。突出显示的残基是脲酶中的His137，His139，His249，His275和Asp363（PDB条目1ie7，链C;左下）和His391，His393，His659，His681和Asp736腺苷脱氨酶（PDB条目2a3l，链A;底部）。

结构比对最广泛的目的是鉴定同源残基（由共同祖先的基因组中的相同密码子编码）。在序列比较中，这通常通过模拟氨基酸取代以及插入和缺失概率来实现。已经提出了一些定量的，经验参数化的结构演化模型，但大多数结构对准器都是基于结构相似性的特殊(ad hoc )分数。然而，一些特殊分数已被证明在实践中起作用，表明它们也捕捉到结构演化的定性方面。

蛋白质结构比对是一个活跃的研究领域。在过去30年中，每年发布的新方法数量每5年翻一番; 此估算基于ISI Web of Knowledge中已发表论文的样本，该论文在标题中具有结构对齐或结构比较。这些方法使用不同的表示，评分函数和优化算法。对相似性有不同看法的排序方法并不简单，有些评价产生了矛盾的结果。在这里，我们回顾结构比较的方法和方法的比较。

二、打分

根据结构表示是三维，二维还是一维或一个表征整个结构的数字，可以将不同的评分方案分类为类型。在结构相似性得分中使用的一系列功能形式在表1中进行了整理。

3D。 3D物体的相似性可以通过刚体叠加时等效原子的位置偏差来量化。已经提出了许多评分功能。根据共同核心（Ne）的大小，位置偏差（rmsd）和空位罚分之间的平衡，这些标准可以定义不同的最佳对应组（图1a）。灵活的比对工具（aligners）不是单一的刚体转换，而是将一系列子结构连接在一起，这些子结构具有紧密的局部超级拼版。因此，灵活的aligners可以识别具有大的构象变化的蛋白质之间的相似性。灵活的对aligners近年来激增

2D。结构上等同的残基具有相似的三级相互作例如，通过接触图，图或距离矩阵描述残基 - 残基相互作用。可以通过蛋白质结构的拓扑分析产生接触图(Contact maps)。 Delaunay和Voronoi tessellations在蛋白质结构内部创建网格，使得每个空间点都分配到最近的残基。作为空间邻居的残差共享网格单元的小平面，边或顶点。使用这些拓扑标准，不需要指定接触残基的距离阈值。已经提出保守邻居关系作为共同核心的客观定义。只要保持交互网络，这些方法就允许灵活性。Dali是一个弹性比对工具。相似性定义为与分子内C（α）-C（α）距离的相对距离差成比例。这意味着，对于相同的相似性水平，对于三级接触（tertiary contacts）（例如在螺旋或β-折叠之间）允许比局部接触（local ones）（例如在骨架构象之间）更大的绝对偏差。

1D。结构特征（Structural profiles）是计算机科学家中非常流行的方法。这些特征根据其氨基酸类型和离散的骨架构象状态对每个残基进行分类。用于氨基酸序列的 Fast string algorithms直接适用于结构字母表。然而，这些特征在检测共同核心顶部具有大的装饰（embellishments）的蛋白质之间的结构相似性方面具有有限的能力。

0D。最终的缩减将整个结构投射到其指纹，即一个数字或直方图。索引查找允许尽可能快的数据库搜索。类似的结构应该生成相同（或类似）的指纹，但子结构匹配是有问题的。例如，Tableausearch基于这样的假设：折叠具有二元结构排列的不变的离散模式。通过删除一个或两个SSE而生成的所有子结构，也存储指纹。不幸的是，由于组合爆炸，基于索引的对更远距离结构的近似匹配的搜索是令人望而却步的。

三、比对（Alignment）

一旦选择了结构相似性得分，比对问题包括找到最优解。对所有相互作用的相似性的评估导致组合的问题，这是NP- hard.。相反，基于rmsd的分数可以在多项式时间内进行优化。所有用于结构对齐的实用算法都采用启发式算法（heuristics）。最常用的方法是对刚体变换（无gap段或内部坐标系的叠加），片段装配（包括图形扩展算法,组合问题）和双动态编程（产生成堆求和问题的近似解)。许多程序混合了几种方法。

针对各种问题设置引入了许多新的稳健优化算法，包括基于（rmsd，Ne）的评分函数，这称为参考独立评估。

已提出参考独立评估以减轻明确参考比对的一些问题。例如，具有重复的结构具有平移对称性，因此许多合理的替代比对虽然在参考中可能仅出现一个。数据库范围的鉴别测试基于ROC曲线，SCOP是最受欢迎的参考。许多研究人员已经评论了SCOP在定量标准方面的不一致性。作为补救措施，qCOPS将结构上不同的SCOP系列划分为具有大共同核心的子系列。另一个测试集由在SCOP和CATH之间一致分类的结构组成

参考独立评估的问题在于它是对评分函数之间相似性的测试。 rmsd可以从任何对齐计算，因此任何方法生成的对齐都可以定位在（rmsd，Ne）平面中。在对齐优化和评估之间转换目标 - 通过切换评分函数，会导致不稳定的行为。基于rmsd的标准对包含或排除异常值敏感，即共同核心的边界，灵活和弹性评分函数对于基于rmsd的刚性函数不是单调的。我们在这里强调这一点，因为一些程序产生“坏”对齐（就rmsd而言）的悖论，即使它们在分类测试中表现良好，也常常被脱离背景。在我们看来，对齐的质量仅根据用于生成（优化）对齐的方法的原始分数来定义。

我们使用尿素酶和腺苷脱氨酶作为测试案例，对成对结构比对的准确性进行了诊断测试（图1b）。在这里，我们对共同核心中包含多少残基不感兴趣。我们只是询问活动位点是否被认为是结构上等同的。活性位点汇集了四个保守序列基序，可以使用序列比对技术找到。因此，我们认为这是一个由同源残基组成的具有生物学意义的基序。在测试的32个程序或Web服务器中，六个程序（SSAP ，LGA / GDT ，TOPOFIT ，GASH ，PPM和DaliLite）对齐功能残基。十种方法（包括Matt ，Matras和SARF2 ）在四个motif中的一个和三个之间排列。一半的程序没有一致的motif。没有特定类型的分数可以说是成功还是缺乏成功。换句话说，似乎motif的对齐对应于结构相似性的真正最佳，这在基于不同原理和结构表示的评分函数中存在：即使当他们获得不等的“质量”分数时，对齐也可以在要点上达成一致。并非所有使用相同类型分数的程序都会生成类似的对齐方式。因此，开发人员应特别注意优化流程的稳健性。

四、结论

结构对齐的目标可以在几何上定义，作为最小数量的点与最小空间偏差的叠加，或遗传地，作为同源残基的识别。蛋白质序列中的突变导致三维结构的塑性变形。因此，允许灵活性和可塑性的结构比较方法产生最具生物学意义的比对。准确的成对和多重比对需要用于功能位点的绘图，表征和分类，以及在生物医学研究中的应用。折叠空间中结构“变形”的进化模型正在出现，并且最终可能取代结构相似性的特殊分数。这些模型将推动对未来序列和结构进化的相互作用的研究，通过同源性和结构基因组学对模型构建的实际意义。

参考资料

Current Opinion in Structural Biology 2009, 19:341–34 . Advances and pitfalls of protein structural alignment

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn