【4.7.3.1】结构比较--LCS和GDT

一、LCS,Longest Continuous Segments

指定的CA RMSD截止下的最长连续段

该算法使用许多不同的叠加来识别预测中残基的所有最长连续段,这些残基与目标的偏差不超过指定的CA RMSD截止值。

如果预测中的每个残基是该片段的一部分,则将其分配给该片段中最长的片段。 还报告了在给定RMSD截止条件下预测中绝对最长的连续片段。

对于不同的CA RMSD截止值(1.0 A,2.0 A和5.0 A),将报告分析结果。

此度量可用于评估从头开始的3D和比较建模预测。

二、全球距离测试(GDT,Global Distance Test)。

该算法在预测中使用许多不同的叠加来识别与目标偏离的残基集,其残差不超过指定的CA DISTANCE临界值。

预测中的每个残基都分配给与目标偏离的最大残基集(不一定是连续的),且不超过指定的距离截止值。

此度量可用于评估ab-initio 3D和比较建模预测。

对于不同的DISTANCE截止值(0.5 A,1.0 A,1.5 A,… 10.0 A),报告了几种措施:

  • NUMBER_OF_CA_max : 可以在指定的距离截断下适合的“最大集合”中的CA数
  • PERCENT_OF_CA_Tg : “最大集合”中CA的百分比与目标中CA总数的比较
  • FRAGMENT: Beg-End :包含CA“最大集”的句段的开始和结束
  • RMS_LOCAL :根据CA的“最大集”计算的RMSD(均方根偏差)
  • RMS_ALL_CA :基于CA的“最大集合”将预测结构叠加到目标结构之后,在所有CA上计算的RMSD

三、讨论

3.1 GDT和LCS作用

引入这两种度量(GDT和LCS)的目的是提供一种可用于更好地检测模型的相对好坏部分的工具。

  • 使用LCS,我们可以定位可在RMSD阈值以下拟合的模型的“最佳”连续(沿序列)部分:1A,2A和5A。三个蓝线代表可以在1A,2A和5A截止拟合的最长残基连续集。
  • 使用GDT,我们可以定位可以满足DISTANCE阈值的“最佳”残基集(不必是连续的):0.5A,1.0A,1.5A,…,10.0A。GDT图上有三条蓝线。每条线代表一组5%,10%或50%的残基,这些残基可在特定的距离截止值(Y轴)下拟合。 因此,最低的线代表所有目标残基的5%组中的残基(X轴)。 中线从10%组中识别出那些残基,从50%组中识别出最高的残基。

3.2 GDT和LCS区别

LCS和GDT之间的区别如下:

  1. LCS(最长连续段)基于RMSD截止值。
  2. LCS的目标是定位可以适合RMSD临界值的最长连续残基片段。
  3. 如果预测中的每个残差是该段的一部分,则将其分配给该段。
  4. 结果文件中提供的数据包含根据三个选定的CA RMSD截止值(1A,2A和5A)计算出的LCS  
  5. GDT(全球距离测试)基于DISTANCE截止值。
  6. GDT的目标是定位偏离目标最多不超过指定DISTANCE临界值的最大残基集(不必是连续的)。
  7. 如果预测中的每个残基是残差集合的一部分,则将其分配给所提供残差的最大集合。
  8. 结果文件中提供的数据包含根据若干DISTANCE截止值计算出的GDT:0.5、1.0、1.5,…,10.0埃(Angstroms)。

LCS算法给出的分析结果显示了该模型的相当局部的特征,而GDT中考虑的残基来自整个模型结构(它们不必保持序列的连续性)。

3.3 GDT程序如下

LCS发现的每个三个残基段和每个连续段都用作起点,以给出叠加的初始等价关系(模型目标CA对)。

等效项列表被迭代扩展,以产生可在考虑的距离截止条件下容纳的最大残差集。

为了收集有关最大残基集的数据,使用了迭代叠加过程(ISP, iterative superposition procedure)。

ISP方法的目标是从计算中排除在应用转换后,模型与目标结构之间的某个阈值(截止)距离大于某个值的原子。

从初始原子集(C-alphas)开始,算法如下:

  1. 获得变换
  2. 应用变换
  3. 识别距离大于阈值的所有原子对
  4. 重新获得变换,不包括那些原子
  5. 重复2-4,直到在两个运行周期中计算所使用的原子集相同为止

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学