【6.3.1】蛋白质稳态研究中用CamSol预测蛋白质溶解

August 19, 2019 protein_design 阅读量：次

蛋白质稳态(protein homeostasis)系统的主要功能之一是将蛋白质保持在可溶状态，实际上，一些人类疾病与蛋白质的异常聚集有关。蛋白质稳态系统的积极参与对于避免聚集是必要的，因为蛋白质以接近其溶解度极限的水平表达，因此难以溶解。然而，蛋白质稳态系统用于控制蛋白质聚集的机制仍然未被详细了解。为了促进这些机制的系统研究，我们在此描述了预测蛋白质溶解度的CamSol方法，并说明了其初始应用。我们预计，随着强大的蛋白质组学和转录组学方法的出现，结合使用CamSol方法和相关方法来预测蛋白质的溶解度和其他生物物理特性，有可能增加我们对蛋白质稳态原理的理解，这些原理与维持蛋白质组的可溶形式有关。

一、蛋白质溶解度

物质的溶解度由可溶相和不溶相处于平衡状态的浓度值定义（Chai- kin等，1995）。因此，溶解度基本上取决于物质本身的物理和化学性质，以及其环境的性质，尤其包括溶剂的组成，温度，pH和离子强度。实际上，物质的溶解度可以通过其饱和浓度来测量，也称为临界浓度，其是在不溶性部分存在下物质的可溶性部分的浓度。人们还可以将溶解度视为特定浓度(particular concentration)，其中添加更多物质不会增加其在溶液中的浓度，而是触发其沉淀。

由于多种蛋白质在其可溶形式中起作用，并且与其不溶形式的疾病相关，蛋白质溶解性是蛋白质稳态的主要方面（Vendruscolo等人2011）。然而，定义蛋白质的溶解度在理论上和实验上都很困难（Jain等人2017;WolfPérez等人2019）。如上所述，溶解度的定义是严格的，但它仅以完全定量的方式应用于具有明确定义的可溶相和不溶相的物质。然而，绝大多数蛋白质可以包含多种结构异质状态，包括小的和大的低聚物，因此区分可溶性和不溶性组装具有挑战性（Sormanni等2015）。原则上，能够生长成较大聚集体的低聚物可以被认为是不可溶的，但实际上，难以测量给定样品中生长 - 竞争性低聚物的浓度。尽管存在这个问题，但在蛋白质稳态研究中考虑蛋白质溶解度测量仍然是有用的，因为低聚物种的总浓度通常远小于单体和大聚集体的总浓度，因此这些低聚物质对溶解度值的贡献相对较小（Sormanni等人，2015）。

二、蛋白质溶解性，蛋白质稳态和人类疾病

蛋白质聚集现象与多种人类疾病有关，包括阿尔茨海默氏症和帕金森病（Dobson 1999; Balch等人2008; Eisenberg和Jucker 2012; Knowles等人2014）。这些疾病可能有不同的症状，影响不同的器官和组织，但都是特定蛋白质功能失调的特征。虽然这些疾病与具有不同序列和天然结构的蛋白质相关，但大多数这些蛋白质似乎遵循错误折叠和聚集的一般行为（Dobson 1999; Knowles等人2014）。这种行为涉及形成许多不同类型的聚集体，从小寡聚体到大的淀粉样蛋白原纤维，但所有这些聚集体类别似乎具有共同的结构特征，不依赖于它们来源的特定蛋白质（Dob- son 1999; Balch et al.2008; Eisenberg and Jucker 2012; Knowles et al.2014）。事实上，现在已经确定的是，几乎所有蛋白质，而不仅仅是那些与疾病相关的蛋白质，都可以在适当的实验条件下在体外聚集，并且所得到的聚集体可能对细胞有毒（Bucciantini et al.2002; Selkoe 2003; Eisenberg和Jucker 2012; Chiti和Dobson 2017）。根据受到严格审查的蛋白质，这些条件在pH，浓度，温度或化学物质（例如三氟乙醇，TFE）的存在方面可能或多或少是苛刻的，但基本上所有蛋白质都可聚集（Dobson 1999; Knowles等人。 2014）。

聚合状态(aggregated state)的基本性质及其在生物体中的表现已得到越来越多的认识，并导致观察到广泛的蛋白质聚集现象，其中蛋白质组的大部分在体内经历聚集（David等人.2010; Olzscha等人2011; Reis-Rodrigues等人2012; Ciryam等人2013; Wal- ther等人2015）。已经认识到这种现象的起源是蛋白质以接近其溶解度极限的水平表达（Tartaglia等人2007; Baldwin等人2011），因此过饱和（Ciryam等人2015）。总之，所有这些观察结果表明聚集和形成原纤维的能力可以被认为是多肽链的内在特性，即使聚集速率在不同蛋白质之间可以显着变化。为了解决聚集的持续风险，一个复杂的蛋白质稳态系统已经发展到将蛋白质组维持在功能状态（Balch等人，2008; Hartl等人，2011; Labbadia和Morimoto，2015）。

折叠的蛋白质可以通过至少两种可能的途径聚集，这取决于受到详细审查的蛋白质和实验条件（Chiti和Dobson 2017）:

在一条路径中，蛋白质分子在彼此结合之前至少部分地展开。该过程导致形成小的低聚物，然后其可以在尺寸上生长，形成更多结构化的聚合物。这类蛋白质的例子是serpins，其中认为聚集起始于折叠中间体（Carrell和Lomas 1997）。
在另一种途径中，蛋白质可以直接从它们的天然结构聚集形成第一个可以保持功能的组件。例如，对于大多数抗体分子和出于功能原因而出现“粘性”区域的其他蛋白质来结合其他蛋白质或形成复合物就是这种情况（Pech-mann等人，2009）。一旦存在关键数量的分子，使得与其有序堆积相关的焓克服相应的熵损失，聚集体可以进化为原纤维并最终进入淀粉样原纤维（Knowles等人，2014）。在这种情况下，我们注意到越来越多的证据表明小寡聚体，而不是大聚集体或淀粉样蛋白，可能是最神经毒性的物种（Lam-bert等人1998; Bucciantini等人2002; Haass和Selkoe 2007; Benilova等人2012; Jongbloed等人2015; Cline等人2018）。

三、用于预测蛋白质聚集反应的生物物理学原理

尽管淀粉样蛋白原纤维和无定形聚集体是多肽链的基本状态（Knowles等，2014），但在生理条件下聚集的倾向在蛋白质与蛋白质之间存在很大差异（Walther等，2015）。为了揭示这种倾向的原则，在理解氨基酸序列如何决定蛋白质的构象特性方面取得了重大进展。特别是三个因素已经显示出极大地影响聚集倾向。

第一个是序列组成，因为残基的生物物理特性，特别是疏水性，电荷和二级结构偏好，已被证明是聚集率的主要决定因素（Chiti等，2003; DuBay等人2004; Fernandez-Escamilla等人2004; Pawar等人2005; Tartaglia等人2008; Tartaglia和Ven- druscolo 2008）。
第二个对于那些倾向于形成天然样低聚物的蛋白质尤为重要，它们是在天然状态表面溶剂暴露(solvent-exposed )的氨基酸（Tartaglia et al.2008; Tartaglia and Vendruscolo） 2008）。大多数（尽管不是全部）蛋白质倾向于在其三维结构的核心中埋藏聚集促进残基。然而，当这些残留物因功能原因暴露于溶剂时，它们可能是聚集的主要驱动力（Pechmann等人，2009）。
第三个是天然状态本身对抗展开的热力学稳定性。通过在天然条件下的大的构象波动，较不稳定的蛋白质具有更多的机会来提供可以促进聚集的疏水性残基（Tartaglia等人2008; Tartaglia和Vendruscolo 2008）。

这些原则已被用于开发各种预测聚集倾向的方法（Fernandez-Escamilla等人2004; Tartaglia和Vendruscolo 2008; Maurer-Stroh等人2010; Zambrano等人2015;Pallarès和Ventura 2016）和溶解度（Magnan等人2009; Agos- tini等人2012; Smialowski等人2012）的蛋白质。在这里，我们特别描述了导致引入CamSol方法的工作（Sormanni等人，2015），并说明了它的一些应用。

四、CamSOL方法

4.1 蛋白质溶解度的生物物理原理和CamSol方法的发展

Chiti及其同事的开创性工作表明，使用氨基酸序列的生物物理特性的线性组合可以准确预测肽突变变体聚集率的变化（Chiti等，2003）。在单个氨基酸突变导致的聚集率变化，与多肽链疏水性，电荷和采用α-螺旋和β-折叠二级结构的倾向的三种生物物理性质的相应变化之间观察到统计学上显着的相关性。生物物理特性的线性组合表示为

其中k是野生型肽的聚集率，k‘是携带单突变的聚集率，log表示自然对数，ΔI^hydr，ΔI^ss，ΔI^ch分别是突变体和野生型疏水性之间的差异（I^hydr）），二级结构倾向（I^ss）和电荷（I^ch）。该公式再现了一个非常好的例外（r = 0.85）聚合率的变化，实验测量了一系列肽和未结构蛋白的单氨基酸取代（Chiti等，2003）。

然后扩展该方法以预测蛋白质的绝对聚集率，而不仅仅是它们在氨基酸取代时的变化（DuBay等人，2004）。这些绝对聚集率很大程度上取决于氨基酸序列外在因素，包括pH，离子强度，温度，特别是聚集肽或蛋白质的浓度，因此这些因素应包含在计算（DuBay等，2004）。

Zyggregator方法进一步发展了这种方法，通过引入新术语扩展了预测的适用性和准确性，例如疏水/亲水模式残基（I^pat）,，其带有与疏水区域侧翼相同的带电残基的守门残留物(gatekeeper residues , I^gk)（Pawar等，2005; Tartaglia和Vendruscolo，2008; Tartaglia等，2008）。重要的是，这种方法也被推广到能够识别蛋白质或肽序列中易于聚集的区域，特别关注预测疾病相关蛋白内的促淀粉样蛋白区域（Pawar et al.2005; Tartaglia and Vendruscolo 2008; Tartaglia et al.2008）。

通过在这些进步的基础上，我们在2015年推出了用于预测蛋白质溶解度的CamSol方法（Sormanni等人，2015）。虽然蛋白质的溶解度和聚集率是相关的，并且都依赖于氨基酸序列的生物物理特性，但它们并不完全等同。蛋白质的溶解度取决于天然状态和聚集状态之间的自由能差异，而其聚集率取决于这两种状态之间的自由能障碍（Sormanni等人，2015）。为了获得准确的预测，CamSol首先计算溶解度谱，其中包含序列中每个残基的分数，并且对当地环境高度敏感，然后根据分布本身计算总溶解度分数。。溶解度曲线可以直接从氨基酸序列（内在分布）或在仔细检查下的蛋白质结构（结构校正的分布）计算（Sormanni等人，2015）。

4.2 内在溶解度曲线 The Intrinsic Solubility Profile

在CamSol方法中，首先采用类似于方程1的生物物理特性的线性组合来计算每个残留物的溶解度分数（Sormanni等人2015）

其中 $p_{i}^{H}$ ， $p_{i}^{C}$ ， $p_{i}^{α}$ ， $p_{i}^{β}$ 分别是疏水性，中性pH下的电荷，残基i的α-螺旋和β-链倾向，而a系数是线性组合的参数。然后，进行平滑平均，其中每个得分被七个氨基酸的窗口上的中心移动平均替换，从而有效地取代了个别残基的生物物理特性对以残基为中心的七个残基碎片的影响

在该表达式中， $I_{i}^{pat} $ 考虑了交替疏水和亲水残基的特定模式的存在，并且 $I_{i}^{gt} $ 考虑了单个电荷的守门效应

其中 C_{i + j}是氨基酸 i+ j和电荷，b定义了gatekeeper残基的影响相关的长度尺度。平滑平均值和附加项确保氨基酸取代对溶解度曲线的预测效果将取决于旧氨基酸和新氨基酸的生物物理特性之间的差异，以及当地的进行突变的背景。

4.3 结构校正的溶解度曲线 The Structurally Corrected Solubility Profile

如果感兴趣的蛋白质具有三维结构或结构模型，则可以计算结构校正的分布（Sormanni等人，2015）。通过将固有溶解度曲线投影到表面上并在尺寸A和尺寸rA的表面patch上平滑来定义该轮廓。残基i的结构校正的溶解度倾向得分 $S_{i}^{surf}$ 可写为

其中总和在距离残基i的距离rA内延伸超过蛋白质的所有残基，排除沿着序列连续的残基，因为它们的邻近效应已经被固有溶解度得分所包含。 $w_{j}^{E}$ 和 $w_{j}^{D}$ 分别是“exposure weight”，它取决于残基j的溶剂暴露量，以及“smoothing weight”，定义为

其中dij是残基j与残基i的距离。这个定义意味着相残基对局部表面聚集倾向的贡献大于更远的残基。此外，smoothing weight不会偏向预选的表面patch尺寸。 rA设定为8Å，因为该值与预测本征溶解度曲线中实施的7个氨基酸窗口一致（事实上，8Å在一个紧凑的球状蛋白质中跨越约3个残基）。

其中xj是残基j的相对暴露，即，给定结构中该残基的溶剂可及表面积（SASA）除以扩展构象的Gly-Xxx-Gly肽中相同残基的SASA。使用Heaviside阶跃函数 θ (这个符号不对，正确的见上图)，以便不考虑具有<5％溶剂暴露的残基。因此，等式7描述了一个S形函数，其中a和b是调整的参数，使得权重缓慢增长到相对曝光x≈20％，然后在x≈50％时线性增长到1;这是通过设置a = -10和b = 0.3来实现的。当残基暴露于50％溶剂时，其中一半面向结构内部，而另一半面向溶剂，则为潜在的聚集伴侣提供最大的表面。通过这种校正，未暴露于表面的残留物，例如埋在疏水核心中并且对于蛋白质折叠必不可少的残留物，被分配接近零的分数，因此，在CamSol算法的后续步骤中不予考虑。

等式5中的数量 $ \widetilde{S}_{j}^{int}$ 是使用读取的等式3的修改版本计算的残差j的固有溶解度

其中等式3中七个残基窗口的平均值已经被加权平均值（在同一窗口上）替换为权重 $ \widetilde{x}_{j}$ ，这是残基j的相对暴露，线性重新调整范围[0.25 ，1]，所以除以零之间永远不会发生。

类似地， $ \widetilde{I}_{i}^{gk}$ 体现了与等式4中的 $I_{i}^{gk}$ 相同的想法，但现在在三维空间中计算相同符号的电荷的gatekeeping效应。

其中Cj是中性时残基j的净电荷在此，使用残基j中的带电原子的相对曝光 $x_{j}^{C}$ ，使用贴片半径rA和曝光重量 $w_{j}^{E}$ 的两倍计算平滑重量 $w_{j}^{D}$ 。

尽管计算结构校正的溶解度曲线需要了解蛋白质的结构，但不需要特别高的分辨率。只要正确表示氨基酸的溶剂暴露及其相对Cα距离，预测就是准确的。这一事实使得CamSol程序适用于仅知道序列的大量情况，因为可以通过标准技术（例如同源性建模）获得足以实现溶解度预测的结构。

4.4 CamSol溶解度评分

然后通过考虑难溶性区域以及高度可溶性区域的贡献，从内在分布计算出整个蛋白质的溶解度分数。从固有的溶解度曲线我们得出整个蛋白质的总体溶解度评分（Sormanni等人2017）

其中Si是氨基酸i的固有溶解度曲线的值，N是输入序列的长度。上下阈值thup和thlow，以及系数ωup，ωlow，γ和δ拟合蒙特卡罗程序，旨在最大化SP的相关系数的绝对值和聚合测量来自文献的比率，以及通过系统文献检索收集的非聚集和聚集肽和蛋白质的区分能力，其中包含完全不相关的序列而不是相同蛋白质的突变变体（Sormanni等人，2017）。由于使用公式10计算的分数是无维数的数字，因此它们被重新调整，以便在超过106个随机序列中计算的平均值和标准差分别为0和1（Sp = [Sp - μ_random] /σ_random）。在该计算中使用的随机序列是用人蛋白质组的相同氨基酸频率和长度分布产生的。在最初的验证中（Sormanni等人，2015），我们证明了这一溶解度评分在重现对最多三个同时突变的单结构域抗体的溶解度的影响方面是高度准确的（R = 0.98）。随后，为了进行蛋白质组范围的分析，我们使用上述方程扩展了可溶性评分的适用性，以便能够定量评估更远距离相关蛋白的溶解度（Walther等，2015），同时保留对突变文库进行高度定量筛选的可能性（Sormanni等，2017）。

五、CamSol方法的应用

5.1 蛋白质变体文库的快速溶解度筛选 Fast Solubility Screening of Libraries of Protein Variants

使用来自MedImmune的噬菌体展示衍生的单克隆抗体（mAb）文库（Sormanni等人，2017）测试了CamSol对蛋白质变体的溶解度进行排序的能力。我们分析的单克隆抗体在Fv区域中最多有32个突变，并且在计算得分和相应的溶解度测量之间观察到强烈的相关性（图1A）。类似地，还报道了麻烦的mAb的突变变体的CamSol预测和溶解度测量之间的统计学显着相关性（Shan等人，2018）。此外，在最近一项关于17种单克隆抗体库的研究中，将CamSol预测与一系列常用的可开发性测定和溶解度测量进行比较，并且CamSol与这些实验读数之间的相关性与不同测定中的相关性相当或更好（WolfPérez等，2018）。这些结果表明，由于CamSol溶解度预测快速在仅需要氨基酸序列作为输入的笔记本电脑上运行，这种方法使人们能够从头开始选择高亲和力（来自库平移），高溶解度（来自CamSol）抗体，如图1B。

图1.（A）定向进化衍生的mAb文库（Sormanni等人，2017）测量的表观溶解度（表示为PEG 1/2的值）的散点图，作为从内部计算的内在CamSol溶解度分数的函数。仅重链可变结构域（VH）的序列，因为绝大多数突变都存在于那里。回归线，报告的Pearson相关系数（R）和相应的p值（p）通过排除用红色圈出的异常点（mAb3）来计算。（B）A中的计算预测使得能够鉴定最可溶的mAb。因此，可以使用两个参数来进行源自体外发现实验（例如，噬菌体展示）的抗体的筛选：（1）测量的结合强度（例如，结合亲和力或y轴上的解离速率），和（2）从序列计算的预测溶解度分数（例如，CamSol-在x轴上的固有溶解度）。后者易于从氨基酸序列计算，因此能够从抗体发现的早期阶段选择具有高亲和力和溶解度的前导抗体（改编自Sormanni等人2017）。

5.2 聚合促进热点的识别 Identification of Aggregation-Promoting Hotspots

除了上面给出的结果之外，结构校正的CamSol计算可用于识别蛋白质表面上的聚集促进热点。在图2的实施例中，负责mAb2相对于mAb1增加的自缔合的氨基酸用结构蛋白质组学方法（Dobson等人，2016）实验鉴定为W30，F31，L561，与CamSol的预测完全一致。

图2.（A）结构校正（实线）和内在（虚线）mAb1（蓝色）和mAb2（红色）的VH结构域的CamSol溶解度曲线，其是Sormanni等人分析的两种单克隆抗体。（2017年）。用灰色框突出显示互补决定区（CDR）的位置。（B）结构校正的溶解度曲线在mAb2（左上）和mAb1（右下）的VH / VL结构域的同源模型的表面上进行颜色编码。 mAb2（W30，F31，L57）上标记的残基位置是已经通过实验鉴定为聚集热点的那些（Dobson等人，2016）。聚集促进区域为橙色/红色，而聚集保护区域为浅蓝色/蓝色。该图显示了测量的高性能尺寸排阻色谱单体保留时间（Dobson等人2016），其为各种mAb变体作为其单独序列计算的组合链溶解度分数的函数。 mAb2在热点位置30,31和57分别具有W，F和L的残基，而mAb1具有S，T和T。 mAb2和mAb1之间的六个变体根据mAb2位置被命名。突变为相应的mAb1氨基酸（例如，WFT是mAb2 L57T）。该线作为视觉指南（改编自Sormanni等人2017）。

5.3 具有增强溶解度的蛋白质突变体的合理设计 Rational Design of Protein Mutants with Enhanced Solubility

CamSol方法可用于从有问题的分子开始设计具有增强溶解度的抗体或蛋白质。本质上，结构校正的预测揭示了氨基酸取代（或在某些情况下插入）的候选位点，并且内在预测可用于快速测试那些位点处的所有可能突变，这将产生具有改善的溶解度的变体（Sormanni）等人2015; Camilloni等人2016）。

5.4 稳定性和溶解度权衡与蛋白质聚集的联系 Stability and Solubility Trade-Offs and Link with Protein Aggregation

已经鉴定出许多不相关蛋白上的大量突变导致体内聚集和人类疾病。从广义上讲，这些突变可以通过两种不同的途径引起聚集。

在一种情况下，突变使天然状态不稳定，导致其部分或完全展开。结果，通常埋在疏水核心中的难溶性区域暴露于溶剂中，从而引发聚集。
在另一种情况下，突变可以发生在蛋白质的表面上或在无序区域内，因此直接影响溶解度而基本上不改变天然结构。

使用CamSol方法可以通过单独使用氨基酸序列容易地预测第二类突变的影响，例如通过抗体文库的溶解度筛选（图1）证明，其中所有分子都已知折叠和功能。然而，仅通过观察溶解度无法预测第一类突变的影响，因为聚集是由未折叠状态的溶解度通常远低于天然状态的溶解度引发的，而忽略了在详细审查下对特定突变的溶解度的影响。然而，当已知这种疾病相关突变时，CamSol方法可用于预测它们是属于第一类还是第二类。

图3.使用CamSol方法对Fas1-4中非同源单核苷酸多态性（nsSNPs）的所有突变的内在（x轴）和结构调整（y轴）溶解度的预测变化（ Stenvang等人，2018年）。与晶格角膜营养不良（LCD）相关的突变以蓝色显示，与三种亚型的粒状角膜营养不良（GCD 1-3）相关的突变分别为亚型1,2和3的红色，紫色和橙色。。所有LCD和GCD 2突变对结构调整的溶解度几乎没有或没有影响，这与它们通过间接增加Fas1-4通过天然状态的不稳定性的聚集倾向来驱动聚集的概念一致。根据内在和结构调整的预测，GCD 1突变R555W在溶解度降低方面是极端异常值，并且预测GCD 3突变比任何其他角膜营养不良相关突变更能降低溶解度。除了R555W之外，表明GCD1和GCD3表型受折叠的Fas1-4结构域溶解度的损失驱动（经Sten-vang等人2018许可）。

作为一个例子，图3显示了角膜蛋白TGFBIp的Fas1-4结构域内所有可能的非同义（nonsynonymous）单核苷酸多态性（nsSNPs）的预测效应，其具有一些与疾病相关的突变，导致不透明的细胞外沉积和角膜营养不良（CDs）（Stenvang等2018）。 x轴上的内在分数仅考虑氨基酸序列，而y轴上的结构调整分数还包括关于残基是否暴露或埋藏在单体TGFBIp天然状态的信息。在所有可能的771点突变中，与粒状CD相关的突变R555W在其预测的内在和结构调整溶解度的降低方面是已知排名最高的已知疾病相关突变。类似地，预测突变R555Q比除R555W之外的任何其他已知的CD相关突变更能降低两种溶解度预测。实验数据证实，这两种变异体都折叠良好且稳定（Stenvang等，2018），因此表明体内聚集体形成和病理学可能是折叠状态溶解度降低的结果。相反，其他已知的疾病相关突变（有色点）落在x轴上或附近，表明这些突变通过降低天然褶皱的稳定性间接增加聚集倾向，这与体外稳定性测量完全一致。这些突变体，以及这类突变中无定形和淀粉样蛋白聚集体的共存（Stenvang等，2018）。

五、使用CamSol调查蛋白质溶解度与蛋白质稳态之间的联系

5.1 蛋白质组的蛋白质溶解度预测

我们上面描述的结果表明，CamSol方法在预测突变中的溶解度变化和相似序列的蛋白质文库的溶解度筛选中是高度定量的。除了这些应用之外，CamSol还可用于进行蛋白质组学研究，以便在考虑蛋白质组的平均行为时获得有用的见解。例如，对完整蛋白质组运行CamSol内在预测很容易揭示溶解度评分的双峰分布（图4），其中膜蛋白形成一组低溶解度序列，而细胞溶质和其他蛋白形成第二组溶解度更高。

图4.（A）大肠杆菌（上图）和酵母（下图）的整个蛋白质组的CamSol溶解度评分的分布。根据UniProt数据库（UniProt Consortium 2018）中注释的亚细胞位置（参见图例）分离蛋白质。（B）通过质谱测量（x轴）和CamSol溶解度评分（y轴）测定的蛋白质丰度之间的散点图。这些图中仅包含有丰度数据的非膜蛋白（Leuenberger等，2017）。个别数据点为黑色，而大肠杆菌（左）的相应平均点为红色，酵母为蓝色（右）。平均点报告了根据其丰度分组的~50个蛋白质组的平均CamSol评分和丰度水平。误差棒是平均值上的标准误差，并且针对平均数据计算报告的Pearson相关系数（R）和相关p值（p）。

先前已显示蛋白质溶解度和细胞蛋白质浓度相关，表明蛋白质溶解度调节至其细胞浓度（Tartaglia等人，2007）。实际上，通过质谱法测量的CamSol内在预测与体内蛋白质丰度数据的比较揭示了一旦蛋白质根据它们分类后具有非常强的相关性（分别为大肠杆菌和酵母的R = 0.93和0.82）。超出水平。相反，当所有数据被单独考虑时，相关性要弱得多，大肠杆菌的Pearson系数为0.3和0.2（测量丰度为663的非膜蛋白，p <10-15）和酵母（529点，p~分别为3×10-5）。几个因素可以确定在考虑单个蛋白质时获得的较低相关性。首先，图4B中的每个数据点对应于可获得丰富测量的一个氨基酸序列，并且使用的溶解度预测忽略了结构背景（即，无关蛋白质暴露其高度可溶和难溶性区域的事实以不同的方式）。另外，许多这样的序列在细胞内形成复合物，并且形成的复合物的溶解度可能与其单体亚基的溶解度不同。众所周知，蛋白质丰度水平可以响应外部刺激或环境变化以及细胞周期的不同阶段而显着变化。在这种情况下，由于随机突变漂移的竞争效应，平均降低溶解度和自然选择，选择溶解突变，但只有在每种蛋白质变得足够好以执行其功能之前，才应该预期之间的相关性。蛋白质可以表达的最大浓度及其溶解度。最后，总蛋白质丰度和细胞浓度之间的相关性可能并不完美，因为相对较低的丰度水平可能对应于某些细胞区室中非常高的蛋白质浓度（Tartaglia和Vendruscolo 2009），这些蛋白质需要是高度可溶，避免聚集。

因此，值得注意的是，平均而言，在预测的溶解度和测量的蛋白质丰度之间观察到如此强烈的相关性，这表明上面讨论的一些潜在的错误来源在取平均值的蛋白质时取消了其他一些。。当考虑聚集倾向区域的数量代替溶解度时，还报道了用分箱数据（R = 0.77）获得的类似相关性（Tartaglia和Vendrus-colo 2009; Ganesan等人2016）。

六、结论

我们总结了我们目前对蛋白质溶解度的生物物理原理的理解，并描述了我们如何使用这些原理开发CamSol方法来实现对该性质的定量预测。我们预计，这种方法的发展，与日益强大的蛋白质组学和转录组学方法相结合，将有助于系统研究蛋白质稳态系统控制蛋白质组水平蛋白质聚集的机制。

参考资料

Protein Solubility Predictions Using the CamSol Method in the Study of Protein Homeostasis. Downloaded from http://cshperspectives.cshlp.org/ at The University of Edinburgh on March 17, 2019 - Published by Cold Spring Harbor Laboratory Press

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn