【5.6.1】蛋白质中的残基的静电互补和结构互补(Em和Sm)

就形状和静电势而言,互补性已在蛋白质-蛋白质界面上进行了定量估计,并广泛用于预测相互作用蛋白质之间缔合的特定几何形状。在这项工作中,我们尝试将绑定和折叠(both binding and folding)都放在基于互补性的通用概念平台上。为此,我们(据了解是第一次)估计了埋在蛋白质中的残基的静电互补性(Em, electrostatic complementarity)。 Em测量蛋白质内部表面静电势的相关性。结果显示,所有氨基酸的值均一且显着。有趣的是,主要由于主链的轨迹,疏水性侧链也获得了明显的互补性。我们实验室先前的工作是对内部残留物的表面(或形状)互补性(Sm,surface (or shape) complementarity)进行表征,并且现在已经将这两种方法结合起来,得出了两种评分功能,以识别一组诱饵中的天然折叠。这些计分功能与在蛋白质-蛋白质对接运动中区分多个溶液的功能有些相似。这两个函数在最新数据库上的性能相当,甚至不比大多数当前可用的评分函数好。因此,类似于与特定几何结构相关联(对接)的蛋白质链的界面残基,在天然内部发现的氨基酸必须满足就Sm和Em而言相当严格的限制。还发现该功能对于正确鉴定具有低序列同一性的两个序列的相同折叠是有用的。最后,受Ramachandran图的启发,我们开发了Sm与Em的图(称为互补图),该图可识别具有次佳堆积和静电的残基,这些残基似乎与配位误差相关。

一、前言

据说所有形式的生物分子识别都涉及互补分子表面之间的相互作用。两个相互作用的表面之间的这种特定匹配主要被认为具有双重方面:

1.表面(或形状)互补性(surface (or shape) complementarity)是由于范德华接触中紧密堆积的界面原子的空间配合而产生的; 2. 由带电或部分带电原子引起的长距离电场介导的静电互补性。

对于与蛋白质结合的小分子配体或辅因子,上述观点似乎仅是部分正确的。与配体所采用的多种构象相比,不仅一种配体在结合不同的蛋白质后不仅可以采用多种构象,而且结合口袋的形状和理化特性也表现出更大的变异性。但是,对于蛋白质-蛋白质界面,该概念似乎具有更高的可信度和更广泛的吸引力。由于蛋白质-蛋白质界面的相对较大(平均约1600 Å^2),必须仔细定制表面,使结合时掩埋的延伸区域可以紧密接触。各种形状相关性和静电互补性措施结合到对接算法中的蛋白质已被证明可有效预测相互作用蛋白之间的界面(7,8)。基于优化电荷分布的静电互补性也已用于匹配同源结构库中的同一分子(肌红蛋白)的两半(9)。另一方面,表面互补性已用于确定蛋白质内的天然侧链扭转(10,11),并且还用于合理化豆科植物凝集素四元排列的可变性(12)。 Lawrence和Colman和cCoy等制定并估算了形状相关性(Sc)和静电互补性(EC)措施,用于各种四级缔合,蛋白质抑制剂和抗原-抗体复合物中的蛋白质。因此,对于两条多肽链之间的立体特异性缔合必须满足几何和静电互补性的阈值似乎是合理的。在蛋白质中,表面互补性(Sm)已用于枚举氨基酸侧链之间的特定堆积方式(13),并且在某种程度上类似于蛋白质界面,埋葬时的所有残基均实现了高度均匀的表面适合度(14)。

尽管互补性的概念很自然地适用于蛋白间缔合的表征,但已提出结合和折叠都应从一个共同的概念平台上进行(15,16)。多肽链采用的天然构象会导致其隐埋侧链的立体定向堆积,并由于电荷的策略性三维放置而产生最佳的静电相互作用。因此,折叠可能被描述为当多肽链折叠到其自身上时的自我识别。然而,将结合等同于折叠的一个固有问题在于与界面相比,蛋白质内部的不同特征。除二聚体外,界面在蛋白质组成和氨基酸残基的空间分布上均类似于蛋白质表面而非内部(17)。与蛋白质中发现的疏水簇不同,非极性残基在蛋白质-蛋白质界面处被隔离,被极性或带电荷的氨基酸包围。然而,尽管存在这些差异,但事实仍然是,界面原子(1)和内部原子(13,14)都必须满足相当严格的堆积要求,并且至少对于界面而言,已经发现了显着的静电互补性值(2, 8)。为了探索结合和折叠之间的相似性或等效性(就互补性而言):

  1. 我们首先从具有代表性的晶体结构数据库中估计了蛋白质中埋藏的残基的静电互补性(Em)。
  2. 其次,与蛋白质对接相似(7),我们使用基于S m和Em的评分功能进行蛋白质折叠识别,并在最新的数据库中进行了验证。
  3. 最后,为了检测自然褶皱(fold)中次佳堆积(packing)和/或静电的局部区域,我们开发了一个基于Sm和Em的图(类似于著名的Ramachandran图(18)),以识别此类残基,这些残基似乎与坐标错误有关。

二、方法和材料

计算中使用了两个具有代表性的高分辨率蛋白质晶体结构数据库(分辨率 ≤ 2.0 Å,R因子 ≤ 20%,序列同一性 ≤ 30%)。由719条多肽链组成的第一个数据库(DB1)在其他地方有详细描述(13)。该数据库用于计算涉及Sm的所有相关统计数据。我们通过删除具有深层嵌入的修复基团(例如细胞色素)和任何缺失原子的蛋白质(支持性实验中的数据集S1),组装了由400条多肽链(DB2)组成的更大数据库的子集。 DB2(由65个 all α,70个 all β,106个 α|β,124 α+β和35个多域蛋白组成)用于计算氨基酸残基的Em及其相关统计量。发现这些蛋白质中的62个含有金属离子作为其结构的组成部分。通过程序REDUCE(19)将氢原子几何固定在所有结构上。

在计算静电势之前,我们根据ABER94全原子分子力学力场(20)为所有蛋白质原子分配了部分电荷和原子半径。 Asp,Glu,Lys,Arg,双质子化的组氨酸(Hip),以及羧基和氨基端基均被离子化。结晶水分子和表面结合的配体不包括在计算范围内,因此被建模为本体溶剂。离子半径根据它们的电荷分配给结合的金属离子(21)

多肽链的范德华表面以10 dots/Å^2采样。表面生成的详细信息在先前的报告中进行了讨论(14)。我们通过将半径为1.4 Å的探针球滚动到蛋白质原子上来估计单个原子在溶剂中的暴露量(22),估计单个残基的埋葬(Bur)的比例,通过多肽链中氨基酸X的溶剂可及表面积与 位于Gly-X-Gly肽片段中的完全相同构型的相同残基的容积科技表面积的比值。

使用在Delphi(第4版)(23,24)中实现的有限差分( finite-difference)Poisson-Boltzmann方法来计算沿多肽链的分子表面的静电势。蛋白质内部被认为是低介电介质(介电常数为2),周围的溶剂被认为是高介电介质(介电常数为80)。由于发现采用生理强度对最终的静电溶液几乎没有影响,因此将离子强度设为零(25,26),并在298 K下进行了计算。将介电边界和部分电荷映射到立方网格上 151x151x151或201x201x201网格点/边的大小(后者适用于在物理尺寸上表现出明显不对称的蛋白质)。网格填充百分比设置为80%,比例为1.2 grid points Å。用等于分子电荷分布的偶极子的 DebyeHucke potential来近似边界势。使用探针半径1.4 Å描绘介电边界,然后迭代求解线性化的Poisson-Boltzmann方程(LPBE),直到收敛为止程序自动确定收敛的周期数(收敛阈值基于最大电势变化设置为0.0001 kT / e),并通过检查输出日志文件中的收敛图进行监视。

Delphi需要一组表面点,在这些表面点上要计算静电势以及一组对电位有贡献的原子。生成整个多肽链的范德华表面后,我们确定了各个氨基酸(靶标)的点表面点,并将它们与选定的一组(带电)原子一起送入程序。然后,两次计算每个残基表面的静电势:首先是由于特定目标残基的原子所致,其次是从蛋白质中除选定氨基酸之外的其余部分中。在这两种情况下,仅对没有贡献电势的原子(虚拟原子)分配零电荷的半径,以维持分子在网格上的缩放和方向。因此,用两个静电势值标记(选定)残基的每个点表面点。改编自cCoy等人最初提出的功能EC(2)对于蛋白质-蛋白质界面),然后将氨基酸残基(蛋白质内)的Em定义为这两组潜在值之间的相关系数(Pearson’s)的负值:

在计算出静电势之后,我们根据点是从目标残基的主链或侧链原子获得的,将与N个点表面点相对应的值分为两个不同的组,并分别计算每个组的Em。因此,对于给定的残基,估计整个残基(Eall m,如上所述),侧链表面点Esc m和主链表面点Emc m。

S m的计算已在先前的研究中进行了广泛讨论(13,14)。简而言之,可以计算Sm的目标残基的侧链表面点与其附近的所有其他点之间的距离(在3.5 Å范围内),由其他蛋白质贡献。任何点表面点(本质上是一个面积元素)都由其坐标(x,y,z)和其法线的方向余弦(dl,dm,dn)来表征。然后,将Sm定义为(按Lawrence和Colman(1)的方法)为分布{S(a,b)},S(a,b)的中值,可通过以下公式计算:

其中na和nb是分别对应于点表面点a(位于目标残基的侧链表面上)和b(点最接近a的点,在3.5 Å内)的两个单位法向矢量,其中dab为距离在它们和w之间,缩放常数设置为0.5。在确定了最近的邻居之后,我们还可以将指定残基的侧链表面点划分为两组,这是由于它们的邻居来自侧链或主链原子,并分别计算每组的Sm。因此,每个目标残基(侧链)基于其最邻近点(表面点)的选择均具有三个S m度量,无论是仅从侧链 Ssc m,主链Smc m原子获得,还是所有原子Sall m。由于甘氨酸缺乏任何非氢侧链原子,因此所有计算均将其排除为目标。

三、结果

3.1 Em within proteins

蛋白质中的Em​​通过Delphi(23,24)中的LPBE计算蛋白质中的静电势,并根据cCoy等人提出的(2)用于蛋白质-蛋白质界面方法修改了E m的估计值(参见等式1)。 对于高电荷分子,例如DNA(24),微管和核糖体亚基(27),首选非离子强度的非线性PBE。然而,球状蛋白质的净电荷密度明显较低,LPBE已被广泛用于计算蛋白质-蛋白质界面和溶剂暴露的残留物表面的静电势(25,28,29)。在生理抗衡离子强度(0.15 NaCl,离子排斥半径:2.0 A-Z)下,由非线性PBE(在涉及150条多肽链的试验计算中)估算的静电势与LBPE计算的静电势实际上相同(图S1)。

从400条多肽链(DB2)的数据库中估算出蛋白质内部的所有残基的Em(burial ≤0.30;见试剂和方法)。为了测试Em对连续体内部电介质(-5p)的敏感度,我们重复了所有计算3次,分别将ε p设置为2、4和10。这三组针对不同残基的Em值之间的均方根偏差(RMSD)可以忽略不计,这表明至少在常用的ε p范围内Em的不变性(图S2)。使用较高的内部介电常数(ε p =] 20和40)进行的相同计算也保留了结果的总体趋势(表S1)。应注意的是Em估计两组原子产生的电势之间的相关性表面点的大小。

在进行统计分析之前,所有完全/部分埋藏的(目标)残基都分布在三个burial bins(burial:0.0-0.05、0.05-0.15、0.15-0.30;请参见材料和方法)。在整个残基表面Eall m上计算出的每个氨基酸的不同埋葬区中的平均Em值,揭示了〜0.5-0.7范围内不同残渣之间的分布相当均匀(表1)。

Eall m在整个蛋白质内部的高正值表明,埋在蛋白质中的各个残基具有与蛋白质-蛋白质界面相似的反相关(互补)表面静电势(图S3)(2)。实际上,疏水残基的Eall m值与极性氨基酸和带电氨基酸的Eall m值相当。从这些观察中,我们认为主链表面点可能主要对Eall m起作用,特别是对于疏水残基。为了验证这一假设,我们根据表面点在主链/侧链原子上的位置对其进行了隔离,并针对每组分别计算了Em,即对于侧链和主链表面点分别为Esc m和Emc m 。如预期的那样,所有氨基酸的Emc m值再次均一,并且在大小上与Eall m相近。有趣的是,即使对于疏水残基,也发现Esc m具有相当重要的值。然而,在疏水性(Val:0.48,Leu:0.46,Ile:0.48,Phe:0.41)和带电/极性(Asn:0.67,Gln:0.64,Asp:0.61,Glu:0.63,Lys: 0.61,Arg:0.56)残基,尽管在1 SD(〜0.1 - 0.25;表1)之内。含硫氨基酸(Cys:0.34,Met:0.32)和脯氨酸(0.34)获得了某种程度的降低。在所有三个burial箱中都观察到了类似的模式,这表明在蛋白质内部,Em中的分布​​似乎与残基暴露于溶剂无关。

为了评估侧链或主链原子对E m的相对贡献,我们基于对残基表面(目标:侧链/主链)的选择,进行了四组以上的计算,并在此基础上计算静电势和原子 (侧链/主链)贡献潜能:

  • 第1组:链内表面主链原子。
  • 第2组:侧链表面,主链原子。
  • 组3:侧链表面,侧链原子。
  • 第4组:目标分子的侧链表面,侧链原子以及多肽链其余部分中的所有原子

除了选择表面和原子之外,用于计算E m的方法与上述方法相同。如预期的那样,组1在Em中的分布​​均匀,所有残基的值均升高(表S2)。对于第2组,疏水残基仍保留相当显着的Em值(Ala:0.43,Val:0.44,Leu:0.42,Ile:0.43,Phe:0.36等:0.38),这反映了长期主链原子产生的电场极大地促进了疏水性侧链表面上的互补性。通过比较第2组和Esc m中的Em证实了这一点:疏水性残基的两组值几乎相同(表1和表S2),而极性/带电残基与Esc m相比,第2组中的Em显着降低,因为在第2组中忽略了带有高部分电荷的侧链原子的贡献。对于第3组和第4组,疏水性残基的Em实际上可以忽略不计(表S2);然而,极性/带电残基对组4始终具有较高的值,但对组3却明显降低。相对于组3(丙氨酸除外),组4的Em显着增加表明主链发挥了重要作用。在Em的总体测定中(由多肽链的其余部分贡献)。即使对于亲水性氨基酸也是如此,在亲水性氨基酸中,主链原子对极性/带电侧链原子产生的电场的中和有明显贡献。

因此,很明显,主链原子产生的长距离电场将其阴影投射在侧链表面上,以使所有残基,无论其疏水性和掩埋性如何,都具有相当均匀的整体互补性。 亲水残基的极性/带电原子(侧链)另外有助于其侧链表面上的互补性提高。

3.2 Sm和Em在折叠识别和结构验证中的应用

第二部分工作与S m和Em在蛋白质折叠识别和结构验证领域中的应用有关。 基于对上述burial bin中分布的不同残基获得的互补性度量的组合使用,设计了两个这样的评分函数

要注意的是,CSg1和CScp都是蛋白质中所有被全部/部分掩埋的残基给出的单个分数的平均值,因此与多肽链长无关。因此,对于任何给定的自然结构,人们都希望它们的值聚集在自然folding特征的最佳数附近。为天然折叠计算的CSgl和CScp的分布(在DB2中)彼此之间具有很好的线性相关性(R2 =0.94;图S4),平均值分别为3.7(± 0.437)和0.015(± 0.0017) 。因此,对于自然fold,这些功能在平均值附近的散布减少,而对于诱饵,这两种功能的分数都将降低。用于对评分功能进行基准测试和验证的诱饵集包括单个和多个诱饵,并为后者计算了Z分数(请参见等式6)。因为两个基于知识的评分功能都仅在晶体结构上进行了参数化,所以在验证中不包括NMR结构。

3.3 从诱饵中鉴定天然晶体结构

被测试的单个诱饵组之一是Misfold(30),由26对结构组成。 在每对中,将天然序列穿插在无关的折叠上以生成诱饵。 计算中考虑了25对(1CBH,这是一种NMR结构)。 Pdberr诱饵组(31)包含三个正确解析的x射线晶体结构及其错误的对应诱饵,而sgpa(32)包含链霉菌蛋白酶A(2SGA)及其两个相应诱饵的实验结构,这些分子是由分子动力学产生的 模拟。 对于这三个数据集,这两个函数均成功地从所有情况下的对应诱饵中识别了naive结构(表S3)。 与其他基于知识的评分功能(表S4)的比较表明,单个诱饵集中互补评分的表现与其他函数一样有效或更好

四态还原诱饵集(four-state reduced decoy set)(33)由七个序列(链长度范围为54-75残基)组成,每个序列具有将近600S700诱饵,其中包含具有RSD(Ca原子)的结构,其RSD(Ca原子)范围为0.8-9.4 A-Z。在这七个序列中,CSgl和CScp用有效的Z分数正确鉴定了六个天然结构(第1级)(表S5 A)。在4RXN(全b类)的情况下,对于CSgl和CScp,本机结构分别位于第10和第15级。进一步的研究表明4RXN在其二级结构元素之间的侧链堆积可忽略不计。诱饵组Fisa(34)包含四个小的(43S76残基)all-a蛋白,每组500个诱饵。对于该诱饵组,遇到了主要的失败,其中CSgl和CS cp均成功检测出四种蛋白质中的两种蛋白质中排名最高的天然蛋白质(表S5 B)。在等级4(CSgl)和等级5(CScp)中检测到1HDD-C;但是,对于1FC2,这两个功能都完全失败,导致Z分数微不足道或为负数。这是由于这些低分辨率结构(2.8 A-Z)的螺旋之间的堆积最小。值得注意的是(表S6)对于1HDD-C,1FC2和4RXN,即使对于其他功能,故障也很常见

参考资料

  • Biophys J. 2012 Jun 6;102(11):2605-14. doi: 10.1016/j.bpj.2012.04.029. Epub 2012 Jun 5. Self-complementarity Within Proteins: Bridging the Gap Between Binding and Folding
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学