【6.2.1】蛋白质稳定性原理及其在计算设计中的应用

July 24, 2019 protein_design 阅读量：次

蛋白质越来越多地用于基础和应用生物医学研究。然而，许多蛋白质仅略微稳定并且可以以有限的量表达，因此妨碍了研究和应用。研究揭示了构成边际稳定性的热力学，细胞和进化原理和机制。随着这种日益增长的理解，计算稳定性设计方法在过去二十年中从有选择地仅解决边际稳定性的某些方面的方法开始发展。目前的方法更为通用，通过将系统发育分析与原子设计相结合，在保持蛋白质的主要分子活性的同时，在溶解性，热稳定性和聚集抗性方面显示出显着的改善。稳定性设计为改进酶，治疗剂和疫苗的合理工程开辟了道路，并将蛋白质设计方法应用于过去已被证明具有挑战性的大蛋白质和分子活动。

一、前言

蛋白质在所有生物过程中起着重要作用，起着催化剂，抑制剂和传感器的作用。为了发挥它们的功能，大多数蛋白质需要折叠成一个明确定义的结构，即天然状态，并长时间保持稳定折叠。为实现这一目标，原生态自由能必须低于展开或错误折叠状态。天然状态比所有竞争状态更有利的程度被广义地定义为蛋白质稳定性。蛋白质稳定性在自然界和实验室设置中具有广泛的实际表现，包括对高温，变性剂，蛋白酶和非生理pH的抗性; 此外，功能性蛋白质的体内产率，溶解度和适当的细胞或细胞外定位通常与蛋白质稳定性相关。

天然蛋白质通常仅略微稳定，天然状态与未折叠或错误折叠状态之间的自由能差异低至5 kcal / mol（1,2）。由于边际稳定性通常会导致对突变或环境变化的敏感性，因此它对理解蛋白质进化的限制（3-5），疾病的根本原因以及工程改进的研究，生物技术和医学变体具有广泛的意义。例如，导致人类疾病的突变通常不会改变分子功能，而是会降低蛋白质的稳定性，使得蛋白质的可用性太少而无法发挥作用（6-8）; 在一个有启发性的例子中，p53中与癌症相关的突变经常使蛋白质不稳定，使得表达蛋白质的不到一半被正确折叠（7）。在其他情况下，致病突变可能导致错误折叠或导致潜在的细胞毒性聚集和原纤维形成（9,10）。

所有生物体都进化出复杂的机制，解决边缘蛋白质稳定性带来的潜在问题; 总的来说，这些机制被称为蛋白质稳定网络（roteostasis network，PN）。 PN对于许多蛋白质在正常和胁迫条件下折叠和有效运作是必不可少的。此外，细胞衰老与PN功能的降低有关，导致逐渐形成细胞毒性淀粉样蛋白（10-17）。

这些对生物医学研究的各个方面的巨大影响已导致不断努力解读控制蛋白质稳定性及其许多表现的基本原则。从广义上讲，蛋白质稳定性在两个互补的方向上进行探讨：

第一，在面对压力时体外测量的蛋白质动力学或热力学稳定性，，如变性剂，蛋白酶或升高的温度;
第二，体内稳定性，或蛋白质折叠到天然状态的效率和在活细胞中维持该状态的效率。

在过去的二十年中，两个领域的见解逐渐被纳入稳定性设计的方法中。在稳定性设计的早期发展过程中，预测突变对稳定性影响的复杂性表明，普遍适用的稳定性设计方法的最终目标可能是无法实现的（18）;尽管如此，对稳定性的分子和细胞决定因素的深入理解以及预测准确性的实质性改进已经导致设计方法的稳定改进，以达到适用于广泛的蛋白质稳定性问题的全自动方法。本综述重点关注体外蛋白质稳定性问题（第2部分）和体内问题（第3部分）的主要见解，以及这些见解如何为开发计算稳定性设计的实用和通用方法奠定基础（章节 4）。

从我们的角度来看，计算稳定性设计最激动人心的应用可能是设计新的分子活动。值得注意的是，de novo设计的蛋白质，小，富含二级结构，缺乏分子活性，可以非常稳定（19-22），但新设计的酶或粘合剂通常表现出低稳定性和表达水平（23,24））。实际上，我们对稳定性设计的兴趣来自于我们的观察结果，即使用标准计算策略设计的抗体显示出不可接受的低稳定性和体内表达水平（25）。过去，通过遗传随机化的迭代实验应用和改进变体的选择克服了这些瓶颈（23）;通过最近的方法改进，现在可以通过算法解决这些关键瓶颈。因此，除了增强天然蛋白质的稳定性之外，稳定性设计可以为合理设计自然界中未见的活动开辟道路。

二、蛋白质稳定性的热力学 THERMODYNAMICS OF PROTEIN STABILITY

许多蛋白质解折叠的自由能非常小（ △Gunfolding = 5-10 kcal / mol）（1,2），与仅少量氢键的贡献相当。这种边际热动态稳定性具有广泛的影响，因为蛋白质环境的变化或通过在天然状态下观察到的数千种相互作用中的少数相互作用的消除可能会使平衡失效并将活性蛋白质变成无功能的，错误折叠或聚集形式。我们首先要问为什么许多天然蛋白质只是略微稳定并分析稳定天然状态的力量，以及不利于非原生，错误折叠或聚合形式的设计原则。关于蛋白质折叠和稳定性的历史观点，参见参考文献1,26,27。

2.1 为什么许多蛋白质在边缘稳定（Marginally Stable）？

四个互补的考虑因素可以解释为什么许多天然蛋白质略微稳定：

一些分子活动（molecular activities），如结合和催化，需要妥协结构特征。例如，酶活性位点包含多个未补偿的电荷，这些电荷是稳定过渡态所必需的（28）。因此，催化残基的突变可以稳定蛋白质，尽管它们降低了活性（29,30）;类似地，蛋白质结合位点通常含有疏水的溶剂暴露表面，这些表面对于与其靶标形成紧密相互作用是必不可少的（31）。事实上，与直接参与分子活性的氨基酸数量相比，为什么蛋白质如此之大的可能解释是，从蛋白质的其他部分折叠自由能的大量增加是活性位点稳定形成所必需的（32）。此外，一些分子活动需要蛋白质可逆地折叠和展开 - 例如，为了跨细胞膜的有效转运（33）或感知机械应力（34） - 并且高的天然状态稳定性可以将这些蛋白质锁定成一种构象。类似地，构象变化，例如在效应结合位点和活性位点之间的变构通信中所见，可能需要灵活性，而过度稳定可能使蛋白质僵化（35,36）。
蛋白质的展开和错误折叠状态超过折叠状态多个数量级。因此折叠带来巨大的熵惩罚，估计对于100个残基的蛋白质大约为70kcal / mol。在天然状态下观察到的分子接触必须弥补这一大的损失，但如2.2节所述，个体接触的净贡献可能非常小，因此需要许多稳定接触来克服熵惩罚。
边缘稳定性可通过增加细胞周转率来调节蛋白质丰度; 过度稳定的蛋白质可以抵抗蛋白酶的降解和清除。根据这种观点，边缘稳定性是适应性的，允许细胞快速回收蛋白质。
当蛋白质通过进化突变时，选择压力可以优化稳定性，但只能达到生物体适应性不再增加的程度。因此，表达足够水平且不形成有毒错误折叠或聚集物种的蛋白质不太可能经历正选择压力以增加稳定性（图1）。因此，边际稳定性可能反映了通过遗传漂变积累突变与维持足够高的折叠蛋白部分的必要性之间的平衡（42,43）。

图1 蛋白质边缘稳定性的热力学基础。许多天然蛋白质由于选择压力低而具有较高的稳定性而略微稳定。 x轴显示错误折叠或未折叠状态与折叠状态之间的自由能差异。作为该自由能差异的函数的折叠蛋白质的分数显示出陡峭的S形关系，其中△G~3kcal / mol约99％的蛋白质被折叠（右侧的水平虚线）。高于该阈值，用于增加自由能差的选择压力可能非常低。

前三个考虑因素意味着边缘稳定性是多肽链化学和分子功能以及调节细胞蛋白质水平的必要条件。这些都是不同背景下的重要考虑因素，但值得注意的是，来自嗜热生物的蛋白质比它们的嗜温同系物更稳定，可以承受高温和变性剂浓度（44-46）。此外，计算机设计的蛋白质通常非常稳定（19,21,22）。这些观察结果表明边际稳定性通常不是功能或物理必需品。因此，这是第四个考虑因素 - 进化选择压力超过一定的稳定性阈值 - 主导。这是稳定性设计背景下的一个重要结论，因为它表明在大多数情况下，天然蛋白质的稳定性留下了很大的改善空间，而没有损害蛋白质主要活性的风险，正如我们在第4节中所述。

注：

能量函数：对分子能量的贡献的函数总和，通常包括范德华力，静电学，氢键和溶剂化，并且可以包括源自实验数据的统计术语

2.2 蛋白质稳定性的热力学贡献 Thermodynamic Contributions to Protein Stability

稳定蛋白质的设计通常依赖于稳定生物分子的力的定量模型以及突变对稳定性和功能的影响。大多数设计算法使用能量函数来评估结构模型，该能量函数将对天然态能量的主要贡献相加。在2.2.1节中，我们简要描述了主要负责天然状态稳定性的四种类型的非共价相互作用：疏水效应，范德华相互作用，氢键和静电（图2）。一个关键的相对概念，称为负设计（ negative design），涉及的设计原则不一定有助于天然状态本身的热力学稳定性，但有助于不需要的，未折叠的，错误折叠的或聚合状态的不稳定。负设计是第2.2.2节的主题。

蛋白质包含数以千计的单独弱相互作用。（a）蛋白质核心的紧密堆积是由范德华相互作用和疏水效应驱动的，任何空腔都会导致严重的损失。酶T4溶菌酶中的突变Leu46Ala（PDB条目：野生型为1L63，绿色; Leu46Ala为1L67，浅蓝色）诱导空腔形成（浅蓝色）并使蛋白质不稳定-2.7kcal / mol（50）。溶菌酶骨架和一些侧链原子调整以最小化腔（围绕Gly56的骨架调节和Ile27Cδ1位移）。（b）RNase T1中的Thr18（PDB进入：1RGG）与Thr56主链羰基形成埋藏的氢键（黄色虚线）。将Thr18突变为等位氨基酸Val使稳定性受到-1.4千卡/摩尔（146）的影响，可能是由于氢键的丧失，未被满足的供体（Thr56羰基）的埋藏以及冲突或骨架变化以适应甲基在Val18中，与Thr18中的羟基相比更大。（c）barnase表面的带电三联体显示出蛋白质相互作用的协同性和竞争性（PDB进入：1BRN）。 N-末端螺旋上的Asp8和Asp12分别与C-末端Arg110（黄色虚线）形成一个和两个带电荷的氢键。对于三元组中的每一对，以kcal / mol单位（55）显示两个值：（i）针对野生型背景测量的成对相互作用贡献; （ii）与三联体中的第三残基突变为Ala（*）的背景的相互作用。正值表示稳定成对相互作用。由于协同性，成对贡献根据第三位置是否突变而不同，并且在一种情况下稳定突变可能在另一种情况下不稳定。缩写：PDB，Protein Data Bank

2.2.1 主导的相互作用有助于本地稳定。(The dominant interactions contributing to native-state stability.)

疏水效应，即非极性氨基酸与水隔离的偏好，为折叠和所有蛋白质的稳定性提供了主导驱动力（48）。此外，在堆积良好的蛋白质核心中，疏水性氨基酸残基形成有利的范德华接触（图2a），而极性和带电基团主要存在于蛋白质表面。这种整齐划分的一个明显例外是骨架极性基团的蛋白质核心中的埋藏，其通常在α螺旋和β薄片内形成规则的氢键。由于它们的调节性和最佳的氢键配置，这些相互作用为折叠提供了另一个重要的驱动力（26,49）。

蛋白质工程研究已经对疏水核心相互作用及其对蛋白质结构的影响产生了定量的理解。从蛋白质核心中大的，堆积良好的残基突变到丙氨酸的影响可以通过范德瓦尔斯填充的损失和折叠时的疏水效应的组合来近似。单个此类突变可导致约2kcal / mol的损失（图2a）（1,26,50）。这些研究进一步表明，只要周围的骨架是柔性的，蛋白质结构可以通过在腔周围收缩来适应这种突变; 因此，蛋白质的刚性部分对于去稳定性突变比对柔性部分更敏感（50）。此外，为了最大化范德华相互作用的收益，蛋白质核心通过排除体积的组成原子，几乎达到允许的紧密堆积（51）。

氢键分别涉及氢供体，正和负部分电荷的受体（图2b）。由于氢键以非常接近的间隔形成并且对供体和受体基团的取向敏感，因此氢键的形成导致熵的损失和极性基团与未折叠状态的水之间的有利接触的丧失。因此，氢键对稳定性的净贡献为0.5-2千卡/摩尔，取决于键的取向，是否在带电或不带电基团之间形成，以及它是否是极性相互作用网络的一部分（1,26,52）。虽然氢键的净贡献很小，但它们对于指定天然构象是必不可少的，因为它们需要精确的几何形状以最大化其能量贡献（53）。

两个相反电荷之间的盐桥（Salt bridges，通常距离≤5Å）也有助于热力学稳定性，但在大多数情况下更小（图2c）（54）。在蛋白质中观察到的大多数盐桥是表面暴露的，并且通常对稳定性贡献<1kcal / mol（52,55,56）。由于低介电蛋白核心中库仑吸引力的强弱，埋藏的盐桥可能具有高达4-5千卡/摩尔（57,58）的大稳定效应。然而，很少观察到埋藏的盐桥，因为它们的形成伴随着将带电基团从水转移到非极性环境的巨大损失，而非极性环境并不总是通过稳定库仑相互作用得到完全补偿（26,59）。实际上，在发生埋藏的盐桥的情况下，它们通常是极性相互作用网络的一部分，可以提供额外的稳定性（57）。类似于埋藏的氢键，埋藏的盐桥在指定天然构象中也具有重要作用，因为错误折叠状态（其中带电残留物被掩埋但盐桥未被优化）可能招致大的惩罚。有趣的是，盐桥对高温下的稳定性贡献更大，这解释了为什么盐桥在嗜热生物的蛋白质中更为常见。

盐桥对高温下的原始状态稳定性做出了更多的贡献。来自超嗜热生物的蛋白质表现出多种分子特征，这些特征解释了它们相对于来自嗜温生物的同源物的高热稳定性。虽然各个家庭的特征各不相同，但更多的盐桥倾向成为家庭的一般机制（44）。这个发现是有趣的，因为在嗜温生物中，盐桥对稳定性的贡献相对较小，因为大的去溶剂化处罚不利于它们的形成。然而，在升高的温度下，在展开状态下有利的水 - 电荷相互作用（溶剂化）减弱，因此水与天然盐桥的形成竞争较少;相比之下，库仑吸引力相对不受温度的影响，导致对自然状态稳定性的更大净贡献（59）。从设计的角度来看，消除或产生盐桥的突变因此可以根据温度对折叠自由能产生不同的影响。

库仑相互作用也在涉及芳族侧链的相互作用中起作用。芳环核心带有部分负电荷，而周围的氢原子部分带正电荷。该电荷分布有利于芳族残基（60）之间的堆叠构型以及带正电的Lys和Arg侧链与环核（61）之间的相互作用。这些相互作用对稳定性贡献很小（~0.5千卡/摩尔）（62）。

单独地，上述非共价相互作用对折叠自由能产生很小的贡献，并且需要数千个相互作用的聚集来抵消折叠时熵的大量损失（47）。然而，应该注意的是，给定相互作用的相对贡献可能强烈地依赖于结构上下文，并且作为一对对稳定性贡献很小的相互作用可能在相互作用的群体的合作网络中变得更占优势。例如，氢键由于其精确的几何要求而具有熵惩罚。然而，在有组织的极地相互作用网络中，冻结每组的熵成本支付一次，尽管每个这样的组可以参与网络内的多个氢键（图2c）（55）。因此，蛋白质协同性（protein cooperativity）是稳定天然状态的另一个重要原则，也解释了为什么对稳定性的突变效应强烈依赖于分子背景。

2.2.2 消除错误折叠和聚合状态的负面设计原则 Negative-design principles that destabilize misfolded and aggregated states

稳定本机状态的特征统称为正设计元素。相反，破坏错误折叠，聚合或展开状态的功能被称为负面设计元素，并在指定原生状态中发挥重要作用（63）。在考虑任何蛋白质的许多自由度时，很明显非本地或错误折叠的状态可能比原生状态多出几个数量级。如果天然状态在能量上类似于错误折叠状态，后者可能会胜过前者，导致所谓的挫折折叠，其中蛋白质可能被困在稳定的折叠中间体而不是天然状态（35,64,65）。因此，原生状态稳定性不仅是原生和未折叠状态之间的自由能差异的函数，而且也是原生状态和错误折叠状态之间的自由能差异的函数。为了抵抗错误折叠，蛋白质已经进化出负设计元素 - 这些特征不一定有助于折叠状态的能量，而是使不希望的状态不稳定。

首先考虑的是，负面设计元素似乎无法预测，因此无法进行建模，因为错误折叠，展开和聚合状态很多，其结构在很大程度上是未知的（65）。然而，一些负面设计原则出人意料地简单，并且与疏水性，电荷和二级结构有关（39）。例如，负面设计的第一个描述来自于研究镰状细胞性贫血的分子原因（9）。在这种严重的遗传性疾病中，点突变用血红蛋白上的疏水性Val取代带负电的Glu。虽然这种突变不会明显地使血红蛋白不稳定或降低其对氧的亲和力，但用疏水性表面取代带电表面会诱导原纤维形成和红细胞变形。

负面设计的第二个例子突出了二级结构的作用。含有β-链的蛋白质特别容易聚集，因为这种骨架构象可以与分子内的其他链或与其他分子形成非特异性相互作用。为了解决这个问题，edge of sheets的β-链通常含有可能破坏非特异性配对的Pro残基或电荷（66）。此外，交替的极性/疏水序列延伸可能形成β-链，这可能驱动淀粉样蛋白形成，因此耗尽天然序列（67）。最后，聚集的突变效应可以通过电荷变化，疏水性和从α-螺旋构象转变为β-链构象的倾向的简单组合来近似（68）。因此，尽管错误折叠和聚合途径的复杂性（17），不需要详细的原子建模的简单原则可用于分析并潜在地减轻这些不希望的结果。

2.3 生物分子能量函数模型对原生态稳定性的能量贡献 Biomolecular Energy Functions Model Energy Contributions to Native-State Stability

所有原子设计软件包依靠能量函数来计算生物分子状态的相对能量，并对突变对稳定性的影响进行排序（69-73）。精确能量计算的复杂性部分是由于稳定天然状态的非共价键单独弱，其强度取决于分子背景，包括它们是否暴露于溶剂以及它们是否参与合作网络。然而，可以精确计算对天然状态稳定性的一些贡献，包括范德华填充和氢键，并使新蛋白质的设计达到原子精度（19,21,22,74）。然而，从构象熵折叠自由能的贡献需要对非天然构象进行密集采样，并且通常在能量函数中不能被考虑。此外，诸如极性基团和水之间的多体相互作用（75）和协同极性相互作用网络难以精确建模，其中一些可能需要使用专门的搜索启发式来正确设计（20,24）。因此，虽然蛋白质稳定性的规则是众所周知的，但它们的准确表达是正在进行的研究的主题（76）。在功能性蛋白质设计的背景下，分子活性的要求，包括形成用于催化的预组织空腔或用于结合的疏水性表面贴剂，可能会加剧错误折叠和聚集的问题（39）。正如我们在第4节中所看到的，稳定天然蛋白质同时保持其主要活性，因此需要考虑改善原生态能量的正设计元素和阻止错误折叠和聚集的负设计元素。

总之，从热力学的角度来看，天然状态是由许多微弱的原子接触决定的，这些原子接触一起仅略微克服展开状态下构象自由度的大熵损失。此外清楚的是，天然状态下的任何strain，例如核心腔，不满足的氢键或盐桥，可以在天然状态稳定性中带来损失。生物分子能量函数捕获对天然状态稳定性的主要贡献，但稳定性还由天然和错误折叠状态之间的自由能差异决定。在第4节中，我们看到通过消除天然状态下的应变，用有利的分子相互作用代替它，并且考虑到上述负设计原理，可以获得大的稳定性增益。然而，由于蛋白质通常由专用和精细的细胞机器产生，我们将首先讨论这种机制如何阻止错误折叠和聚集，从而有助于蛋白质稳定性的另一个重要决定因素 - 天然折叠蛋白质的体内表达。

三、生存细胞中蛋白质的表达 PROTEIN EXPRESSION IN LIVING CELLS

尽管许多蛋白质仅在边缘稳定且易于错误折叠，但在其天然宿主内，大多数蛋白质有效折叠并且在折叠状态下稳定。 PN的专用机器能够有效折叠边缘稳定的蛋白质，限制蛋白质的错误折叠和聚集（图3）。然而，在非天然环境中，例如在外来蛋白质的过表达中，宿主PN可能不堪重负，限制了可表达性 - 即天然折叠和功能性蛋白质的产量。因此，稳定性设计的主要目标之一是设计可表达的变体，即使在没有蛋白质的天然PN的情况下也是如此。因此，在本节中，我们将简要回顾PN如何限制错误折叠和聚集，哪些分子特征触发PN参与折叠，以及是否可以通过设计消除这些特征中的一些以降低蛋白质对PN的依赖性以实现有效折叠。关于PN参与健康和疾病的最新评论，我们请读者参考参考文献77-80。

图3 新生蛋白质链在体内可能的命运。核糖体的蛋白质合成通常比折叠率慢得多。因此，新生链可以从核糖体出口通道出现时采用二级结构和一些三级接触。疏水和不带电的表面可能形成瞬时的非天然接触，导致错误折叠和末端聚集。蛋白质也可以折叠成天然状态，尽管天然状态也可能错误折叠和聚集，这种过程可能在应激下加速 - 例如，由于高温，变性或pH改变。在细胞中，分子伴侣可以与这些状态中的任何一种相互作用，阻止错误折叠和聚集并将蛋白质维持在天然状态。

20世纪50年代和60年代的Anfinsen（81）标志性实验表明，在完全化学变性后，小模型蛋白核糖核酸酶（124个氨基酸）自发地重新形成其天然功能状态而没有额外的细胞成分。这一论证导致了热力学假设 - 也许是蛋白质化学中最基本和最有影响力的概念 - 它认为折叠的所有信息都是在初级蛋白质序列中编码的。类似地，许多其他小蛋白质显示出从展开状态自然地重折叠到折叠状态，在这两种状态之间没有稳定的中间体（82）; 因此，这些蛋白质被称为 two-state folders。

注： two-state folders：只观察到折叠和展开两种状态并且没有稳定中间体的蛋白质

尽管通过研究小型two-state folders（64,83）已经出现了许多经受住时间考验的一般见解，但必须记住，大蛋白质占每个蛋白质组的主要部分，蛋白质的中位数为300 -400个氨基酸（84）。与具有小的two-state folders的情况相比，大多数蛋白质的大尺寸极大地使与折叠相关的理论和实际考虑复杂化。具体而言，具有> 100个氨基酸的蛋白质通常通过稳定的中间体折叠; 因此，大蛋白质通常不是two-state folders（85）。稳定的折叠中间体具有局部结构，可能导致错误折叠或聚集状态，有助于边际稳定性（图3）（83,86）

除了这些考虑因素之外，在任何活细胞的背景下，蛋白质折叠发生在拥挤的环境中（17）。实际上，细胞溶质可以被认为是每升细胞溶胶中大约300-400g蛋白质的高浓度溶液（87），远远超过典型体外实验中的浓度，并且进一步造成非特异性相互作用，错误折叠和聚集的风险。错误折叠和聚集是问题，不仅是由于靶蛋白的损失; 事实上，由于它们的持久性，蛋白质聚集体可能具有功能获得性病理效应，特别是在长寿（long-living）细胞中，例如神经元（80,86,88）。

3.1 蛋白质质量控制网络确保所有生物体的稳健折叠

考虑到与大多数细胞蛋白质折叠相关的复杂考虑因素，在所有生物体中通过多种机制（统称为PN）维持蛋白质组完整性并不奇怪（77,80,89）。还有人指出，更复杂的蛋白质组，如哺乳动物的蛋白质组，比简单的蛋白质组具有更多精细的PN，其控制层更多（78,79）。 PN包括调节蛋白质生命周期中所有步骤的组分，从核糖体肽出口隧道的外部开始，随着新生链的合成。通过协助正确折叠，维持折叠状态，从聚集体中提取蛋白质链，最后对不需要的，末端错误折叠的或聚集的蛋白质进行蛋白水解，可以继续进行调节（图3）。

如多细胞生物中所见，精细的PN也为面对环境压力时的维持蛋白质组提供了必要的缓冲（90）。由于适应性原因，PN还为可能使蛋白质不稳定的突变提供必要的缓冲液，因为活性所必需的序列特征通常是不稳定的（4,29），或通过遗传漂变累积。因此，PN可能是许多天然蛋白质边缘稳定性的部分原因，因为它削弱了独立折叠的进化选择压力。在蛋白质的异源过表达中最清楚地看到对源生物体PN的依赖性。例如，哺乳动物蛋白在微生物宿主中的过度表达，通常导致功能蛋白的低产量甚至没有可检测的产量，这种情况可以通过细菌伴侣的同时过表达来部分缓解（91），或者通过专门生产来自具有精细PN的多细胞生物的细胞培养物。

同源蛋白质中伴侣依赖性的变异性: 伴侣依赖的分子决定因素仍然是深入研究的主题。在一些情况下，伴侣蛋白依赖性蛋白在其他生物体中具有伴侣蛋白非依赖性同源物（142,143）。一个例子是S-腺苷甲硫氨酸合酶（MetK）。虽然大肠杆菌MetK（EcMetK）是GroEL / GroES专性基质，但其解脲支原体直系同源物（UuMetK）与EcMetK具有45％的序列同一性。此外，通过随机诱变获得GroEL依赖性UuMetK突变体，包括仅引入一个或两个突变，并且观察到这些突变导致更高的聚集（144）。类似地，当小鼠二氢叶酸还原酶（DHFR）在大肠杆菌中重组表达时，它与GroEL强烈相互作用，而大肠杆菌DHFR则不能（145）。两种DHFR主要在三个表面环中不同，并且将这些环中的两个从小鼠移植到大肠杆菌DHFR中使后者成为GroEL依赖性变体。许多折叠，包括例如TIM tube，在同一生物体内具有伴侣伴侣代表和伴侣独立代表，尽管它们具有相同的一般折叠约束。这些和其他发现暗示伴侣依赖不是折叠或分子功能的内在要求;相反，它可能是在弱选择压力下随机漂移获得伴侣独立性。

3.1.1 二级结构元素在蛋白质合成期间已形成

甚至在与任何PN组分结合之前，体内蛋白质折叠受到与体外重折叠不同的限制。核糖体的蛋白质合成在原核生物中以~20个氨基酸/秒的速率发生，在真核生物中以稍慢的速率发生（每秒5-9个氨基酸）（92,93）。与许多蛋白质结构域的典型折叠率相比，这两种速率都非常缓慢，这些蛋白质结构域仅需要微到几毫秒的折叠（82）。鉴于肽链合成是折叠状态形成中的限速步骤，很明显体内蛋白质折叠可以开始共翻译（77,94-96）。因此，在共翻译中，涉及新生链，核糖体和核糖体肽出口隧道周围蛋白质的瞬时相互作用影响蛋白质的折叠轨迹 - 这种情况与体外重折叠实验完全不同，其中整个蛋白质链同时可用于形成本土互动。

核糖体结构还调节折叠轨迹。核糖体肽出口隧道，从肽基转移酶中心到肽出口孔，长约100Å，适用于~30个氨基酸的延伸蛋白链（94,97）。隧道直径变化，部分达到20Å，足够宽，以适应在隧道内已形成的α-螺旋甚至小的三级结构（98,99）。此外，出口隧道衬里带负电，从而引起部分疏水性塌陷并促进在这种僻静环境中形成二级结构元件（100-104）。最后，当新生链从出口隧道中出现时，核糖体表面及其相关伴侣将新生链保持在部分展开状态，主要包括二级结构元件并且几乎缺乏三级结构，从而不利于可能导致的局部非本地接触错误折叠或聚合（77,80）。从这些考虑可以清楚地看出，核糖体是新生链的二级和局部三级结构形成的初始步骤中的主动参与者。

从稳定性设计的角度来看，考虑到上述考虑因素，可以设计蛋白质以减少其对PN的依赖性的一种方式,是通过改善蛋白质序列与天然状态骨架的一致性。增加序列 - 骨架一致性将加速天然二级结构的形成并减少错误折叠状态的形成。正如我们在第4节中看到的，这是一种重要的机制，通过它可以提高蛋白质的稳定性和可表达性。

3.1.2 蛋白质折叠伴侣可以防止错误折叠和聚集

在合成过程中，蛋白质链可能与分子伴侣在其存在的每个阶段相互作用，包括新生链从核糖体中出现;通过所有折叠阶段;并处于折叠状态（图3）。蛋白质链也可以通过分子伴侣从错误折叠或聚集状态拯救并带回折叠途径。伴侣蛋白被定义为与其他蛋白质的非天然构象瞬时相互作用以促进其折叠（或重折叠）为其天然状态的任何蛋白质（105）。通过它们与client蛋白质的相互作用，分子伴侣可以阻断一些折叠轨迹，导致不希望的中间体易于错误折叠和聚集（106,107）。据估计，蛋白质组中与至少一种分子伴侣相互作用的比例超过70％（77,108）;然而，由于许多分子伴侣功能的重叠和冗余，确定这些相互作用的哪一部分是强制性伴侣相互作用是困难的。

注：强制性分子伴侣相互作用（ Obligatory chaperone interactions ）：必须与特定分子伴侣家族相互作用才能在生理条件下达到折叠状态的蛋白质

在过去的十年中，分子伴侣协助折叠多种不同的客户蛋白质的分子机制仍然是难以捉摸的。 X射线晶体学，单分子显微镜和核磁共振的最新进展提供了有关分子水平的客户伴侣相互作用的详细信息。许多伴侣共有的一个特征是它们结合大的溶剂暴露的疏水表面 =- 精确地导致错误折叠和聚集的分子特征。对client蛋白质的亲和力通常较低，使得客户蛋白质的结合，释放和重新结合的快速循环直至天然状态稳定形成并且疏水表面与细胞质隔离。由于PN识别蛋白质上暴露的疏水斑块，因此减少PN对高效折叠的依赖性的一种常用方法是通过设计表面消除疏水斑块（参见第4节）。

总之，有效折叠是在体内获得高产量功能性蛋白质的先决条件。折叠效率至少在一定程度上编码在蛋白质一级序列中，但对于许多大的多结构域蛋白质，其通常是稳定性设计的主题，它也通过与PN的相互作用来确定。这种考虑在过度表达中变得很重要，特别是在异源宿主中，这可能缺乏对折叠必不可少的特定伴侣。因此非常需要用于内在表达的蛋白质设计，即独立于特定分子伴侣。然而，设计高度可表达的蛋白质具有挑战性，因为折叠中间体，错误折叠状态和与PN的相互作用位点很多，并且关于它们的分子信息很少。然而，即使不了解其他状态，也可以通过设计消除触发PN参与蛋白质折叠的一些特征，以提高内在的可表达性。在下一节中，我们将回顾如何使用天然状态稳定性和体内折叠效率的原理来设计更稳定和可表达的蛋白质。

四、蛋白质稳定性设计

蛋白质越来越多地被用作研究试剂，生物化学转化催化剂和生物医学。以上概述的关于热稳定性，错误折叠，聚集和异源过表达的考虑是实质性的，并且有时代表对应用途径的不可克服的限制。此外，工程增强的蛋白质活性，如结合亲和力或催化速率，往往受到靶蛋白边缘稳定性的限制（4）。因此，蛋白质工程通常包括费力和迭代的步骤以增强活性，然后改善或恢复稳定性（112-114）。更广泛地说，从基础研究的角度来看，稳定蛋白质变体的合理设计为我们理解蛋白质结构，稳定性，功能和可表达性的规则提供了最终的测试。

原则上，蛋白质天然状态稳定性和可表达性是相关的，即使前者是热力学性质而后者主要由折叠轨迹控制。这种关系是由于蛋白质稳定性由折叠和错折叠或未折叠状态之间的自由能差异决定的。错误折叠的状态可能被认为是分散了新生链分散到天然状态的陷阱，从而使折叠轨迹受挫并降低了天然折叠蛋白质的产量（35,63,64）;错误折叠状态也可能导致终端聚合（图3）。因此，折叠状态和错误折叠状态之间的自由能差异也是可表达性的决定因素之一。我们可以使用图4中的示意图来考虑稳定性设计的目标：边缘稳定的靶蛋白的能量景观包括许多错误折叠状态，其与天然状态的能量接近，因此可能是高度populated的。在天然宿主中，PN阻断这些状态，但错误折叠状态可能限制异源宿主的表达并限制蛋白质的体外寿命。稳定性设计目标是增加原生折叠状态与错误折叠或展开状态之间的能量差距。通过降低自然状态能量可以增加能隙，但是消除尽可能多的错误折叠状态并且相对于新的自然状态能量保持剩余的高能量也是有益的，从而获得unfrustrated的折叠（83 ，115）。因此，通过增加天然折叠状态与错误折叠或展开状态之间的间隙，热稳定性和可表达性都得到改善。

图4 边缘稳定蛋白质的折叠landscape与设计过程目标的示意图。在该方案中，边缘稳定的蛋白质具有许多竞争错误折叠状态，其仅略高于天然状态，并且因此其折叠受挫。相比之下，在成功设计的蛋白质的折叠landscape中，一些错误折叠的状态被消除，并且原生和未折叠状态与剩余错误折叠状态之间的能量差异更大。因此，即使没有来自其来源生物的分子伴侣的帮助，所设计的蛋白质也可优先折叠成天然状态。

原则上，降低原生态能量需要天然状态的分子结构和，捕获第2节中考虑的正设计元素的设计算法。然而，图4中的示意图显示仅仅这一点是不够的，因为这样的设计算法可能无意中降低了错误折叠状态的能量，甚至引入了原始蛋白质中没有填充的新的错误折叠状态。在首次考虑时，错误折叠状态可能会出现极大地使设计目标复杂化，因为我们几乎没有关于错误折叠状态的结构信息，因此无法对其进行建模。然而，我们发现影响错误折叠和聚集的一些结构特征（第2.2.2节）和触发PN参与折叠（第3.1.2节）可能遵循与电荷，疏水性和二级结构倾向相关的简单负设计原则（68）;这些原则不需要关于错误折叠状态中的相互作用的详细原子信息。为了实现图4的设计目标，必须降低天然状态能量，这取决于限制错误折叠和聚集的负面设计原则，并且还要求保持蛋白质所需活性的要求。

4.1 基于系统发育的稳定性设计

由于系统发育分析不需要蛋白质能量学的结构或模型，因此它可以避免对本地能量学的精确建模的挑战。基于系统发育的稳定性设计方法的核心在于，任何现存的蛋白质在其进化过程中可能已经积累了不稳定突变，只要这些蛋白质不会将天然折叠部分降低到生理要求以下（图1）。然而，作为同源物家族，每个氨基酸位置上最普遍（共识）的同一性也可能是最稳定的;这种最普遍的同一性也可能与蛋白质折叠和蛋白质的主要功能一致，因为它是通过在不同生理环境和需求下进化的大多数同源物中进化而选择的。相反，在同源物家族中罕见或不存在的身份可能对功能，稳定性或可表达性有害，并且它们的消耗可能表明一些负面设计要求。因此，蛋白质家族中突变的历史可揭示自然界中使用的特定溶液，以稳定靶蛋白相对于错误折叠和未折叠状态的天然状态而不损害其主要活性。

在这个想法的基础上，一种称为共识设计( consensus design )的方法已经使用了二十多年（116）。在该方法中，靶蛋白中与家族共有序列不同的氨基酸同一性被选择性地改变为共有同一性。在序列比对明确且可获得大量序列同源物的情况下 - 如免疫球蛋白，重复蛋白（117）和某些酶的情况 - 大约一半的共有突变被认为是单独稳定的（116），118），并且一些多点共识突变体被认为具有超过20℃的改善的热阻。虽然明显成功且有影响力（119,120），但共识设计依赖于高可信度的序列比对，这种比对并非始终可用。此外，通过不考虑目标蛋白质的原子细节，共识设计易于进行假阳性预测，预测突变可以稳定蛋白质而不是破坏其稳定性或损害其活性，特别是在空间上彼此接近的位置突变。因此，共识设计通常需要费力的轮次设计和实验测试（121）。

4.2 基于结构的稳定性设计

为了消除构象采样中固有的一些不确定性以及评估生物分子的能量学（参见第2.2.2和2.3节），基于结构的稳定性设计的早期工作集中在蛋白质稳定性的一个或另一个方面。例如:

模拟蛋白质表面静电和溶剂化的困难导致了解决方案专门处理蛋白质核心中的填充腔，其中计算建模更准确（122,123）。
相反，一些方法侧重于增加蛋白质表面上带电荷的氨基酸残基的数量，提高溶解度和热阻，而不需要详细的原子模型（124,125）。
扫描相关方法的序列和结构模式，这些序列和结构模式在易于聚集的区域中是常见的，例如疏水性区段，并且引入了带电残基的突变，从而减少聚集并增加溶解度（126）。
其他研究集中在通过用Ala代替柔性氨基酸Gly或引入刚性氨基酸Pro来固化骨架，其中天然状态骨架构象允许这样的变化;这种硬化突变可以降低展开状态的熵，从而改善与展开状态相关的自然状态自由能（127-129）。

因此，这些研究解决了蛋白质稳定性，蛋白质表达性以及PN在蛋白质折叠中的参与的一些原理。此外，它们仅需要有限的建模或根本不需要建模，从而降低了生物分子能量学中不准确性的风险。虽然这些方法在特定情况下是成功的，但每种方法都适用于蛋白质稳定性问题的子集，因此不是一般的。

注：蛋白质表达性( Protein expressibility )：由于在一级序列中编码的因子而不是在信使RNA（mRNA）中的天然折叠的活性蛋白质的产量（例如，密码子使用或mRNA结构）

4.3 利用系统发育和原子设计的混合方法进行稳定性设计

上述基于结构的稳定性设计方法解决了蛋白质边缘稳定性的各个方面，例如核心腔，表面疏水性和展开状态的灵活性。原则上，建模和设计中使用的能量函数编码第2节中描述的所有热力学术语，因此设计算法应同时解决正设计的所有方面。实际上，从头设计的折叠已经显示出显着的热阻（19,21,74），但是这些折叠都是基于高二级结构含量的理想的无应变骨架并且没有活性。因此，仍然不清楚在不损害蛋白质活性的情况下是否可以通过设计可靠地改善稳定性（119），特别是当稳定性和分子活性可能会折衷时（4,29,30）。在没有天然宿主PN的情况下，稳定性设计方法是否可以显着提高蛋白质表达能力仍然不清楚，特别是在易于错误折叠的大型哺乳动物蛋白质中。

为了解决设计天然蛋白质的稳定变体而不损害其主要活性的问题，最近的两项独立研究在设计过程中结合了结构建模和进化信息。在一种称为FireProt的方法中，两种原子设计算法与进化保守和协变分析（covariation analyses）相结合（130）。具体而言，进化保守的位置，和协方差分析表明位置之间的依赖性限于野生型身份的位置。此外，FireProt专注于区域的设计计算，这些区域可能是稳定性问题的根源，并且远离参与活动的区域。该方法用于设计两种模型酶，在两种情况下，观察到熔化温度（> 20℃）的大幅增加。

由作者开发的第二种混合方法，称为PROSS，使整个蛋白质受到Rosetta设计的影响，除了活性或结合位点（131）。 PROSS首先通过两步过滤相对于野生型天然状态可能不稳定的单点突变的所有氨基酸：首先，系统发育分析排除了在同源物中很少观察到的氨基酸同一性（图5）;第二，Rosetta建模用于扫描通过第一个过滤器的所有身份，并消除使本机状态不稳定的单点突变（参见补充视频1）。这两个步骤导致序列空间减少，其中预测所有点突变都是稳定的。在最后一步，Rosetta设计了来自这个减少的序列空间的突变的最佳组合，考虑了在能量函数中编码的突变和未突变位置之间的所有相互作用。在最后一步中，受共识设计（consensus design）概念的启发，用于突变蛋白质的能量函数增加了偏置电位（ biasing potential），根据它们在多序列比对中的频率有利于氨基酸同一性。这种基于系统发育的偏置潜力允许Rosetta认为的氨基酸同一性为中性，或甚至略微不稳定，并入设计的变体中。因此，PROSS将共识设计的各个方面与原子建模相结合，因此可以引入正面和负面设计元素，包括解决热稳定性和可表达性的元素。我们通过设计多达5种变体来测试这种方法，每种变体包含来自野生型的10-70个突变，用于5种不相关的酶和疫苗免疫原（131,132）。在所有情况下，所有或大多数变体在热和聚集抗性方面显示出大的增加，而对蛋白质的主要活性没有影响。

图5 应用于人乙酰胆碱酯酶（AChE）的PROSS工作流程图（131）。过滤器＃1：同源序列的多序列比对（MSA）用于生成位置特异性评分矩阵（PSSM），其根据MSA中出现的可能性对氨基酸同一性进行加权（高PSSM分数代表更可能的氨基酸）。从可用于设计的序列空间中消除阴影标识（PSSM <0）。注意到人类AChE的三个代表性位置。过滤器＃2：对剩余的每个身份进行Rosetta原子建模（补充视频1），并消除具有不利G的身份（阴影身份）。在最后一步，活性位点外的所有氨基酸位置在两个滤膜的减少的序列空间内进行组合序列设计。此处显示的AChE设计（PDB条目：5HQ3）包含相对于人AChE的51个突变（PDB进入：4EY7），但具有相同的酶性质，20℃更高的热阻，以及细菌细胞中1,800倍更高的表达水平。突变位置以橙色球体表示，并且相对于蓝色的野生型背景，以绿色棒显示若干代表性突变:(左）暴露的螺旋表面上的Gly416突变为Gln，增加氨基酸与螺旋的一致性骨架并与邻近的酪氨酸引入另外的氢键。（中）Ser438Pro加固了环骨干。（右）Gly240Ser形成螺旋封端的氢键。附加缩写：PDB，Protein Data Bank。

将PROSS应用于真核生物蛋白质的显着效果是细菌表达水平的大幅增加 - 增加多达三个数量级（131,132）。虽然已知表达水平和热稳定性相关（41,133,134），但我们观察到的大增益是不寻常的，并促使我们分析设计变体的分子细节。结构分析表明，对于每种测试的蛋白质，该方法改善了多种分子性质，尽管每种靶标的显着改善通常是不同的;在一个案例中，PROSS引入了17个核心突变，而在另一些情况下，通过引入额外的电荷和极性氨基酸改善了表面极性。我们还发现许多突变通过在螺旋盖中引入侧链骨架氢键并通过在适当位置突变为Pro或远离Gly来使骨架硬化，从而改善了局部序列 - 骨架整合（图5）。该分析提示了一种潜在的分子机制，通过该机制，突变可以改善内在表达性并降低对天然PN的依赖性。具体地，突变解决了上述一些负设计元件，包括改善序列 - 骨架相容性，以及去除易聚集的疏水表面贴片。虽然野生型蛋白质可能需要其天然PN进行有效折叠，但设计的变体消除了不稳定或易聚集的特征，实现了图4的设计目标。实际上，最近的研究表明PROSS稳定的绿色荧光蛋白（GFP））折叠在大肠杆菌中而不依赖于伴侣GroEL，而野生型GFP与GroEL形成紧密的相互作用，并且需要它进行体内折叠（135）。因此，将来自进化保守分析的信息与原子设计相结合，可以解决正负设计元素，促进热稳定性和内在可表达性，包括伴侣独立性，同时保持蛋白质的主要分子活性。

五、结论

通过更深入地了解边缘蛋白质稳定性的根本原因，稳定性设计方法得到了改进。 20世纪80年代和90年代的蛋白质工程研究为理解蛋白质稳定性和折叠途径的热力学基础奠定了基础。后来的工作提供了关于错误折叠和聚集的决定因素的重要信息，分子伴侣参与复杂过程，大型多肽链折叠成独特的天然状态而不被困在错误折叠或聚集状态，以及天然状态如何持续存在。很明显，由于分子伴侣对于折叠天然蛋白质是必不可少的，异源蛋白质表达可能会因缺乏必需的伴侣蛋白而受到影响。进一步的工作提供了关于稳定性设计面临的困难的重要见解：

首先，改善稳定性的突变可能会降低分子活性，这种情况在几乎所有情况下都是不可接受的;
第二，稳定突变对稳定性的贡献很小，只有多个突变才有明显的效果。

了解这些挑战导致稳定性设计解决方案要么避开结构建模，要么采用共识设计，要么仅使用被认为相对安全的结构建模组件，例如主干硬化，核心包装设计或表面电荷设计。能量函数的并行改进（76,136），这里没有提到，提高了建模和设计的准确性。最后，近年来，将系统发育分析与结构建模和原子设计相结合的混合方法已经证明，即使在通过引入数十个突变而没有天然PN的情况下，也显着改善了热力学稳定性和可表达性。因此，适用于广泛的边际稳定性问题的设计方法的目标可能是可以实现的。

合理稳定蛋白质的能力为未来的研究提供了重要的机会。来自真核生物或来自在实验室中无法培养的生物体的酶通常需要费力的蛋白质工程循环以在优选的异源宿主中实现高表达（137）;现在可以大大缩短这些周期。类似地，亚单位疫苗，即来自病原体的表面蛋白用于疫苗接种而不是活的或减毒的病原体本身，是人类和兽医动物健康的有希望的领域;然而，这些表面蛋白质通常是不稳定的（138），稳定性设计可用于快速改善它们（132）。此外，稳定和高表达的蛋白质变体可以作为工程增强功能或改变特异性的更好起点（114）。最后，对低稳定性和可表达性的分子决定因素的基础研究可能受益于对比度稍微稳定的天然蛋白质及其稳定的对应物，并可能反过来为改进稳定性设计算法提供重要的反馈。我们在本综述中没有涉及的一个重要领域涉及膜蛋白，其低稳定性和可表达性通常与可溶性蛋白质一样成问题（139）。最近在理解膜蛋白能量学和表达的序列决定因素方面的改进可以将稳定性设计扩展到这类蛋白质（140,141）。因此，稳定性设计的这些最近和未来发展可以加速生物分子研究的许多领域。

六、讨论

6.1 小结

许多天然蛋白质仅略微稳定，天然和未折叠或错误折叠状态之间的能隙低至5 kcal / mol，相当于仅有少量氢键的净贡献。
边际稳定性使蛋白质对环境变化敏感，降低其可表达性，增加生产成本，因此限制了它们在研究和应用中的有效性。
稳定天然状态的非共价力是单独的弱，并且只有数千个这样的相互作用的总和克服了折叠时的熵损失。
蛋白质体现了负面设计的元素，以防止错误折叠和聚合，但这些元素可能具有挑战性，因为错误折叠和聚合状态众多，结构上没有特征。
生命系统中的边缘稳定性通过称为PN的精细蛋白质网络克服，限制了错误折叠和聚集。
系统发育分析将稳定性设计集中在目标蛋白进化中首选的突变上，从而结合了正负设计元素。
目前的算法使用系统发育和结构建模方法的组合，并且即使在没有宿主PN的情况下也导致热稳定性，聚集抗性和表达性的大幅增加，而不损失蛋白质的主要活性。

6.2 未来的问题

应用稳定性设计的令人兴奋的领域包括用于高温反应器的酶，以及用于长期储存和高产量的疫苗和抗体。
稳定的高表达设计可以与它们的天然对应物形成对比，以理解低表达的分子决定因素，特别是与PN的相互作用。
膜蛋白通常不稳定，表现力低; 未来的方法应考虑热稳定性和膜蛋白表达的决定因素。
氨基酸位置之间的进化偶联可以使蛋白质核心和活性位点中的协同相互作用网络能够更好地建模和设计。

参考资料

Goldenzweig, A., & Fleishman, S. J. (2018). Principles of Protein Stability and Their Application in Computational Design. Annual Review of Biochemistry, 87(1), 105–129.

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn