【4.7.3.5】结构比较--LGA score

我们提出了LGA(局部-全局比对)方法,旨在促进以序列依赖和序列独立模式比较蛋白质结构或蛋白质结构片段。 LGA结构对齐程序可 从 http://proteinmodel.org/AS2TS/LGA/lga.html 作为在线服务获得。 LGA生成的数据可以成功地用于评分功能,以对两个结构之间的相似度进行排名,并在分析许多蛋白质时对结构进行分类。 LGA还允许蛋白质结构相似片段的聚集。

一、介绍

如果要比较同一蛋白质的两个略有不同的构象,则所有相应C-α原子的总均方根偏差(RMSD)将为两个结构之间的相似性提供有用的印象。不幸的是,仅一部分蛋白质的微小扰动(例如,在连接两个结构域的hinge中)会产生较大的RMSD,而且看起来这两个结构的整体差异很大。因此,期望在评估其相似性时也考虑蛋白质的局部区域。本质上,这样的“越界”区域越小,这两种结构越相似。如果将两个不同的蛋白质进行比较,而氨基酸残基之间没有预先指定的对应关系,则必须先生成序列独立的比对(残基对应关系),这又增加了另一水平的复杂性。

因此,我们有动力开发一种方法,该方法既要考虑局部结构又要考虑全局结构重叠,并且能够在没有预先指定的残基对应关系的情况下工作。我们将此方法称为“ LGA”,以进行本地/全局对齐。下面我们描述我们的算法并将LGA程序应用于几个测试案例,以突出其某些功能。

二、评估蛋白质之间的结构相似性

大多数结构比较程序均基于以下原则:可以定义合适的评分功能,使其具有与给定蛋白质最重要的结构匹配相对应的最佳评分功能。许多已建立的比较技术通过两个数字来评估结构相似性,两个重叠结构之间的RMSD以及“等效”(结构对齐)残基的数量。但是,同时优化这两个数量非常困难,因为一个可以以牺牲另一个为代价进行优化。例如,基于距离矩阵对齐的结构对齐器DALI(1)通过将多个数字组合为一个单一的量(称为z-score)来解决优化问题。 ProSup(2)使等效残基的数量最大化,而RMSD保持接近恒定值。当在较小的局部区域中结构相似时,可能会出现另一个问题。当应用一个全局叠加时,可以忽略这些相似性区域。通常,在许多情况下,没有“最佳”叠加可以揭示出所比较蛋白质之间所有相似的区域。

为了在比较两个结构时解决这些问题,LGA程序生成了许多不同的局部超级位置来检测蛋白质相似的区域。 LGA评分功能包括两个部分,LCS(最长连续段,longest con- tinuous segments)和GDT(全局距离测试,global distance test),用于检测蛋白质之间局部和全局结构相似性区域。 在CASP的最后三个连续回合[蛋白质结构预测技术的关键评估(3-7)]中,对这两项措施进行了广泛的测试,从而为评估的3D模型提供了建设性的排名。 在比较两种蛋白质结构时,LCS程序能够定位并叠加可以适合所选RMSD临界值的残基的最长片段。 GDT算法旨在补充LCS搜索最大(不必要连续)的“等价”残基集的评估,这些残基偏差不超过指定的距离截止值。

2.1 由LCS和GDT算法生成的数据

为了生成有关两个蛋白质结构(分子1和分子2)或其片段之间局部相似区域的详细信息,将分子2的每个残基分配给最大的残​​基对集(分子1和分子2的C-α原子)是该集合的一部分,可以适合所选的RMSD(LCS算法)或距离(GDT算法)界限。如果对两个结构的分析仅基于限于一个选定的RMSD或距离截止的叠加,则它将无法提供有关两个结构之间相似性的完整信息;有些相似之处将被发现,而某些则不会。为避免此类限制,将针对一组越来越大的RMSD截断值[1 A(Angstrom),2 A和5 A]生成LCS结果,在GDT分析中,每0.5Å扫描两个结构,从0.5 A到最高10.0 A的距离截止值。这种方法使我们能够收集有关两个结构之间局部相似性的非常详细的信息。这种计算的结果以表1所示的格式报告。

在表1所示的输出中,第2–5列提供了来自两个比较结构的残基的信息,第6、7和8列分别显示了在1Å,2Å 和5ÅRMSD截止值下的LCS分析结果 。 例如,分子2的L-31残基是一个23个残基长的连续链段的成员,可以在1ÅRMSD截止值下与相应的分子1的残基重叠,但是残基E-32是该链段的一个元素 RMSD截止值为1 A时仅由八个残基组成。 在第9–28列中,报告了在0.5 A到10.0 A的距离截止范围内的GDT分析结果。 例如,残留物E-32属于一组四个残基(不一定是连续的),它们可以在0.5Å距离截止下适应,一组七个残基在1.0Å下适合,而25个残基在3.0Å下适合 。

2.2 GDT算法 The GDT algorithm

在GDT程序中,对两个结构之间的最佳重叠的搜索如下进行。对于来自两个结构的每个选定的三个,五个和七个残基长的片段对,计算RMSD和叠加。每个计算出的叠加都用作起点,以给出等效残基的初始列表(来自Molecule1和Molecule2的C-α原子对)。此类等效项的列表经过迭代扩展,以收集可在给定距离截断下适合的最大残差集。迭代过程的目标是在应用变换后排除比Molecule1和Molecule2之间的阈值(距离截止)更远的原子。从初始的原子对集合开始,算法如下:(a)获得变换; (b)应用转换; (c)识别距离大于阈值的所有原子对; (d)重新获得不包括那些原子的变换; (e)重复步骤(b)-(d),直到在两个运行周期中用于计算的原子组相同为止。

2.3 LCS和GDT算法是互补的

LCS算法的结果确定了蛋白质之间相似的局部区域,而由GDT鉴定的残基则来自结构中的任何地方(即无需保持序列连续性)。从这个角度来看,GDT检测到全局(而不是局部)相似性。使用GDT,我们专注于距离而不是RMSD。但是,使用LCS,我们可以优化(最小化)选定残基的RMSD。因此,从这个角度来看,LCS提供了完整且最佳的信息。目前尚不知道使用距离分析(最大范数)找到“最佳重叠”的最佳方法的方法,该方法将最小化所有选定残基之间的距离。结果只能近似。因此,为了找到“最佳”的全球结构匹配,GDT使用了许多距离截断和叠加。 GDT算法逐个“测试” Molecule2中的每个残基,尝试将其分配给与Molecule1相差不超过指定距离截止值的最大残基集(不一定是连续的)。 GDT会评估选定的但很多的叠加,实际上会产生一致可靠的结果。

2.4 LGA评分功能的说明

通过结合这两种技术(基于RMSD和基于距离),LGA不仅可以计算两种蛋白质之间的“最佳”重叠(意味着“在一定的RMSD和距离界限下”),而且还可以确定比较结构之间的局部相似区域。 在结构比对搜索过程中,对于每个生成的等价残基列表,将计算以下值:

  • LCS_vi 可以在vi Å 的RMSD阈值下拟合的残基百分比(连续集)(对于vi = 1.0、2.0 ,…)

  • GDT_vi 可以估计的残差百分比(最大集合)可在vi A的距离截止(vi = 0.5,1.0,…)下拟合。

评分函数(LGA_S)可以定义为这些值的组合,并且可以用于评估所选区域的结构相似性水平。 对于代表加权因子的给定参数w(0.0≤w≤1.0),我们通过以下公式计算LGA_S

LGA程序使用相同的评分功能,以依序列分析模式和依序列无关模式对结构相似性区域进行选择和排序。

2.5 NMR模型结构比较结果的图形表示

如何可视化两个结构之间的多重叠加结果(表1)? 让我们比较其伸长的Synechococcus elongatus kaia(KAIA135N)和25个成员的低能家族(指定为1m2f_A_n)的NMR平均模型1m2e_A。 在表2中,NMR模型按GDT_TS值排序。

在图1中,我们展示了如何使用彩色条形图绘制LGA程序的输出结果(表1和2中的数据)。 图1A或B中的每个条对应于一对已分析的结构。 条形的顺序与表2中的顺序相同。仅针对一种模型1m2f_A_2(表2和条形图中的第四条)提供Rasmol图(图1C和D)。

图1B显示,表1中报道的多叠加LGA分析结果可用于检测蛋白质与结构不同的蛋白质之间的相似区域。 基于单个叠加的分析(图1A)不能如此清晰地区分相似区域。

2.6 图形显示序列独立的数据库搜索结果

结构比对程序(例如LGA)的最大用途在于它们能够叠加蛋白质结构,而与序列同一性无关,并且能够检测结构相似性区域。 在表3中,我们提供了与已经提到的NMR平均模型1m2e_A(CASP5目标T0138)最接近的10个PDB结构匹配项的列表。 PDB数据库搜索是通过使用以序列独立模式运行的LGA程序执行的。 与其他结构相似的PDB条目的序列同一性(Seq_Id)级别非常低,约为12%。

LGA数据库搜索结果的图形表示在图2中给出。每个条形对应一个PDB数据库中蛋白质的命中。 条的排列顺序如表3所示。图2A显示了参考结构1m2e_A与表3所示的每个PDB数据库之间的结构相似性区域(绿色)。红色为高结构多样性区域。 给出了RasMol图(图2B)以获得最佳数据库匹配,即PDB蛋白1a04_B。

2.7 LGA与其他计划的比较

任何结构比较方法的重要要求是其检测弱结构相似性的能力。 在表4中,我们将LGA的结果与四种可用作为Web服务的方法的结果进行了比较,这些方法被科学界广泛使用:VAST(8),DALI(1),CE(9)和ProSup(10)。 该相同数据集用于ProSup与其他结构比对程序的比较[参考文献(10)中的表III]。

三、总结

优化等价残基的数量,同时保持RMSD恒定,可提供一种简单直观的结构相似性度量(如10所示)。 这样的措施可以有效地用于数据库搜索中的排名。 我们显示,在LGA中,成功实现了满足距离限制的附加要求,并广泛地分析了局部相似区域(来自具有多个距离的搜索和RMSD截止)。 我们的方法可以生成不仅提供有关全局相似度的详细信息,而且还提供有关蛋白质结构中局部相似性区域的详细信息的数据。 它允许对结构相似片段的聚类,以及使用此类聚类来识别代表局部结构基序的序列模式。

参考资料

LGA: a method for finding 3D similarities in protein structures. 3370–3374 Nucleic Acids Research, 2003, Vol. 31, No. 13 DOI: 10.1093/nar/gkg571

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学