【5.1.2.1】蛋白质分选预测简史

August 24, 2019 Gene_prediction 阅读量：次

Protein targeting or protein sorting is the biological mechanism by which proteins are transported to their appropriate destinations in the cell or outside it. Proteins can be targeted to the inner space of an organelle, different intracellular membranes, plasma membrane, or to exterior of the cell via secretion. This delivery process is carried out based on information contained in the protein itself. Correct sorting is crucial for the cell; errors can lead to diseases. –wiki

蛋白质分选（protein sorting）：依靠蛋白质自身信号序列，从蛋白质起始合成部位转运到其功能发挥部位的过程。蛋白质分选不仅保证了蛋白质的正确定位，也保证了蛋白质的生物学活性. –百度

自从1971年提出信号(signal)假设以来，信号肽(signal peptides)的确切性质一直是研究的焦点。自该研究领域开始以来，从氨基酸序列预测信号肽和蛋白质亚细胞定位一直是生物信息学中的一个重要问题，涉及许多统计学和机器学习技术。在这篇综述中，我们提供了位置权重矩阵，人工神经网络，隐马尔可夫模型，支持向量机以及最近深度学习技术如何用于预测蛋白质去向的尝试的历史记录。因为分泌途径是第一个通过实验和生物信息学进行研究的途径，我们主要关注靶向蛋白质分泌的信号肽的预测方法的历史发展; 用于识别其他细胞区室的靶向信号的预测方法被更详细地处理。

Keywords Signal peptides · Protein sorting · Bioinformatics · Prediction

几个缩略词：

AA Amino acid
ANN Artificial neural network
GO Gene ontology
HMM Hidden Markov model
SPSignal peptide
SVM Support vector machine
TM Transmembrane

一、前言

信号假设最初是由GünterBlobel和David D. Sabatini在1971年的一篇简短的推测论文中提出的[1]，他们在其中写道：“所有要在结合的核糖体上翻译的mRNA被认为具有共同特征，例如：几个密码子靠近它们的5’端，不存在于mRNA中，这些密码子将在游离核糖体上翻译。由此产生的新生链N末端附近的常见氨基酸序列或其修饰将被介导与膜结合的因子所识别。“假定的”共同特征“于1972年由Milstein等首次出现，作为在没有粗糙微粒体（rough microsomes）的情况下体外合成的免疫球蛋白轻链的较大前体形式[2]。由GünterBlobel和Bernhard Dobberstein在其两篇描述蛋白质易位的体外重建的经典论文中，发表了可切割信号肽（signal peptide ，SP）指导蛋白质易位到ER腔内的确切证据。

下一个显而易见的问题是：SP看起来像什么？正如Blobel和Sabatini所建议的那样，它们是高度保守的，还是可能是更多变量序列？第一个数据来自1975年Edman降解的免疫球蛋白轻链前体，该前体已被[3H] -Leu放射性标记[5]。数据表明轻链合成具有20个残基的N-末端延伸，其在6-8和11-13位含有Leu残基，这意味着SP具有相当疏水的特征。当通过cDNA测序开始获得完整的SP序列时，这证实了这一点。第一次统计分析发表于1979年[6,7]; 它们分别基于9和21的集合，主要是真核生物SP，并且注意到半保守的带正电的N-末端，疏水片段和预测形成β-链结构的C-末端片段。 Garnier等人分析了21序列集合,在1980年[8]，得出了类似的结论。

信号肽酶切割位点周围的序列模式首先在1983年初发表的两篇论文中进行了讨论，分别基于30 和78 SP的集合; 两篇论文都报道了切割位点的特征在于:具有相对于切割位点在-1和-3位置具有小的不带电侧链的残基，称为(− 3, − 1)-rule 。

第一个SP切割位点( SP cleavage sites)的预测方法描述于1983年引入(− 3, − 1)-rule 的论文[10]。它基于缩小的字母表权重矩阵以及缩小搜索区域的规则。权重矩阵覆盖相对于切割位点-5至+ 1的位置，在每个位置仅使用7个不同的权重，对应于具有相似特征的氨基酸组（AAs）。手动估算权重值而不是根据数据计算。仅计算从h区开始计数的位置12-20的权重矩阵得分 - 定义为具有至少三个疏水残基的第一个AAs四联体 - 并且将切割位点分配到具有最高得分的位置。这个过程可以将切割位点正确地放在用于估计它的92％的数据中，但是几年后在更大的数据集上测量，测试性能仅为64％[11]。这提醒人们，如果底层数据基础稀疏，即使是一个简单的方法，如权重矩阵也可以过度拟合。

然而，这不是第一个蛋白质分选预测（protein sorting prediction）论文。比该标题更早的是Capaldi和Vanderkooi从1972年开始的短篇文章[12]，其中他们表明极性残基在可溶性蛋白质和积分（当时称为“内在”（intrinsic））膜蛋白质之间的比例不同。在 cutoff 40％的极性残基时，大约一半的膜蛋白被鉴定为6％的假阳性率。 Barrantes改进了这种适度的成功率，他在1973年和1975年的论文中[13,14]基于两个变量开发了线性判别函数：带电和疏水AA之间的比例，以及根据Tanford的平均疏水性[15]。虽然这些早期工作描述了基于总体AA组成的整个蛋白质的分类，但是基于AA序列的单个跨膜（TM）螺旋的识别是由Kyte和Doolittle开创的[16]。

在这篇综述中，我们详细描述了蛋白质分选预测的早期历史，而后面的发展将只是简单地提及。目的不是制作蛋白质分类预测软件的完整列表，而是描述那些暗示方法学重大发展的方法 - 可以称之为算法范式转换( algorithmic paradigm shifts)。主要关注的是SP预测，还有关于TM蛋白质预测和多类别蛋白质亚细胞位置预测的附加部分。其他分选信号的具体预测方法，如线粒体和叶绿体转运肽[17,18]，核定位信号[19,20]和过氧化物酶体靶向信号[21,22]将不会被提及，在其他综述中有讨论[23,24,25]。

二、信号肽预测 Signal Peptide Prediction

SP的预测涉及两个子任务：

区分SP和非分泌（non-secretory ）蛋白
以及预测SP切割位点的位置。

重要的是要记住，SP的存在与否不等于蛋白质是否被分泌的问题。一方面，具有SP的蛋白质可以保留在膜或真核分泌途径的一个区室中（内质网，高尔基体或溶酶体）; 另一方面，某些蛋白质在没有SP的情况下分泌，特别是在细菌中[26]，但也在真核生物中[27]。

2.1 基于特征的方法 Feature-Based Method

在reduced weight matrix出现于1983年之后，第一个SP预测器由McGeoch [28]在1985年发表，他测试了许多不同的序列衍生特征，以找到在SP和其他序列之间提供良好区分的组合。没有尝试鉴定精确的切割位点。两个选定的特征是：不带电区域的长度，以及在8-AA window中的最大疏水性（在Kyte和Doolittle [16]的尺度上）。不带电区域被定义为在前11个位置中的最后一个带电AA之后开始并且在下一个带电残基处结束，而最大疏水性被计算在不带电区域开始的下游18个位置。在手动确定由这两个特征定义的平面中分离正例和负例的非线性判别函数。

最初，这种方法基于一个非常有限的数据集，主要关注病毒蛋白和免疫系统蛋白，并且由于通过二维特征空间绘制分离曲线所涉及的主观因素，它无法自动转移到另一个训练集。然而，该方法后来被整合到多类别亚细胞位置预测器PSORT中（参见第4节），其中它与von Heijne 1986年的权重矩阵结合使用（见第2.2节）。在PSORT I中，原始的两个特征用于真核数据[29]，但对于原核数据，该方法使用判别分析进行了再训练，并且结合了第三个特征（带电区域的净电荷）[30]。对于较新的PSORT II，该方法已针对酵母和枯草芽孢杆菌进一步改进，不仅优化了判别函数中的特征系数，而且优化了用于推导特征的参数，即扫描带电或疏水残基的序列区长度，和疏水性标度[31]。

这个例子很好地说明了基于规则和特征的方法的优点和缺点。一方面，基于易于计算的特征，如何达到每个单独的预测是非常透明的; 但另一方面，泛化能力（generalization ability ）有限。例如，找到“未带电区域”的开始的规则对n区域的长度施加了硬限制，因此如果SP在位置11之后具有包含带电残余的长n区域（存在在原始数据集中的一个这样的例子中，“不带电区域”将不包含h区域，而是仅包含来自n区域的短任意延伸。从中得出的特征可能完全超出了SP的范围，使得该方法无法产生合理的答案。

2.2 权重矩阵方法

用log-odds得分计算的“真实”位置权重矩阵由von Heijne在几年后发表[11]。测试了一系列窗口尺寸：最初，使用了-15到+5的位置，但是这可以缩小到-13到+2而不会损失性能。计算原核生物和真核生物的单独矩阵。

位置权重矩阵的一个常见问题是有时在某个位置从未观察到某个AA，因此无法计算所需的对数。实际上，这种情况只是更广泛的抽样误差问题的最极端的例子：AA分布是从有限数量的例子估计的，这往往高估了随机分布的偏差。解决方案是正规化：通过修改背景分布来抵消采样噪声。实际上，这是通过在计算权重之前在观察中添加伪计算来完成的[32]。在这种情况下的正则化是以相当临时的方式完成的：没有伪计数被添加到非零计数，而零计数在对数转换之前被设置为1，除了位置-1和-3，其中计数为零是被认为是重要的并且被设置为1 / N（其中N是序列的数量）。

当使用权重矩阵进行预测时，计算蛋白质链的前40个位置的权重矩阵分数，并将分裂位点分配给具有最高分数的位置。因此，它是“移动窗口”方法的示例。该区域中的最大权重矩阵分数也用于SP与其他序列之间的区分。

该权重矩阵已被广泛使用。它从未作为邮件服务器或网络服务器出现，但它已作为可下载的程序多次提供[33,34]，它包含在PSORT中（参见第4节），并与它一起使用商业工具SPScan中的McGeoch方法[28]，它是广泛使用的Wisconsin Package™（Genetics Computer Group，GCG）的一部分。它也被实现为公共领域EMBOSS包[35]中的“sigcleave”功能。

2004年，希勒等人制作了一套名为PrediSi的新型权重矩阵[36]（革兰氏阴性菌，革兰氏阳性菌和真核生物分开）。文章中没有提到正则化，显然作者没有观察到任何零数。据报道，性能接近SignalP 2.0的性能（见第2.4节），但PrediSi性能仅通过自我一致性测量，即没有单独的训练和测试集。

在2001年[37]，Kuo-Chen Chou开发了一种非常类似于权重矩阵的简单方法，尽管它是以不同的方式制定的。他没有计算对数概率并在窗口上对它们求和，而是计算概率并将它们相乘（实际上，这是一个零级马尔可夫链）。对于阳性（切割位点）窗口和阴性（非切割位点）窗口分别计算概率，然后减去该概率以给出判别分数。据报道，在同一数据集上，性能优于SignalP 1.0 [38]，但比较无效，因为它与使用的性能指标不同。 SignalP报道，正确放置切割位点的SP序列的比例在68％和86％之间变化（取决于生物组），而Chou报道了切割位点与非切割位点窗口的90％正确分类（在所有生物体上）。基本上，这意味着平均每个随机序列中的第十个位置将被标记为切割位点，并且没有迹象表明该结果多久会允许识别正确的切割位点。

同年晚些时候，Chou修改了方法以包括所谓的子站点耦合（ subsite coupling）[39]，这意味着考虑了所选位置之间的相关性。具体地，位置-3和-1之间以及位置-1和+ 1之间的条件概率包括在计算中。确切地选择这些位置取决于它们与背景构成的差异最大的事实，但这本身并不表示它们是相关的。修改后的性能提升了几个百分点。同年，Chou发表了一个版本，其中使用了所有邻居位置对之间的相关性[40]（即，一阶马尔可夫链），这再次导致了几个百分点的性能提升。同样在这两篇论文中，将结果与SignalP的切割位点性能进行比较，而没有承认这两种百分比代表不同的性能指标。

2007年[41]的Signal-CF方法是Chou 2001年论文的进一步发展。它是双层系统，其首先确定序列是否是SP，并且如果序列被预测为SP则随后预测切割位点。第一层基于所谓的伪AA组合物[42]，其基本上是指由多个自相关项增强的AA组合物，其通过乘以由范围分隔的AA对的所选物理化学参数来捕获一些序列顺序效应距离不同。这用作k个最近邻分类器的修改版本的输入。第二层是权重矩阵，如上所述，在位置-3，-1和+ 1之间具有“子位点耦合”。据报道，性能优于PrediSi，但未与其他预测工具进行比较

2.3 早期神经网络方法 Early Neural Network Methods

人工神经网络算法（Artificial neural network algorithms，ANN）通过逐渐调整它们的权重从迭代地呈现给它们的数据中学习，使得输出值最终接近期望的目标值，例如0.0或1.0，表示蛋白质是否被分泌的二分法。最初，生物信息学领域中使用的人工神经网络是没有隐藏单位的线性感知器，例如Stormo等人使用的人工神经网络。 1982年预测核苷酸序列中的大肠杆菌翻译起始位点[43]。虽然这些方法在某些情况下将优于基于规则的系统，但是在PDP组[1985]重新引入反向传播算法后，ANN方法得到了普及。该算法允许训练具有隐藏单元的强大的非线性模型，其可以响应于输入的微小变化而显着地改变它们的输出值，例如窗口中的单个氨基酸变为序列。反向传播算法被多次发现，然而，Rumelhart等人的教学演示[45]很快就被广泛使用，就像今天的深度学习革命[46]。非线性，前馈神经网络非常灵活，因为通过减少隐藏单元的数量来限制过度拟合相对容易[47]。增加该方法灵活性的另一个特征是，在级联中或在单个步骤中组合网络通常是有利的[48]，这是允许组合广泛不同的互补特征的原理。这方面也对人工神经网络在蛋白质分选领域的成功产生了很大的影响[38]。

用于区分SP和细胞质蛋白的第一个ANN由Ladunga等人制作。[49]。没有尝试切割位点预测，并且没有使用移动窗口; 相反，每个序列的N-末端部分（在初始测试后设置为20个残基）用作输入。使用平铺算法训练网络，该算法是在训练期间建立网络拓扑的过程，根据需要添加尽可能多的隐藏神经元以正确地对所有训练数据进行分类[50]。正确地对所有训练数据进行分类可能听起来非常显着，但它几乎可以保证过度拟合 - 通过添加精确拟合每个数据点的参数，网络变得无法看到森林中的树木。当网络应用于未参与培训过程的数据时，这反映在相当差的测试性能上。

同样在1991年，Arrigo等人[51]报道，一个无人监督的Kohonen网络意外地从一小组人胰岛素受体基因数据中识别出SP区域。 Kohonen网络，也称为自组织特征图，是无人监督的ANN的一个例子，其中“训练”在训练集中没有目标值[50]。 Kohonen网络有一个输入层和一层计算单元 - Kohonen节点。这两个层完全连接，因此每个Kohonen节点都有一个权重向量。 Kohonen节点以定义每个节点的拓扑邻域的方式排列，例如，方格子。当向网络显示训练示例时，选择其权重向量最接近输入向量的Kohonen节点。更新所选节点及其在某个半径内的邻居的权重向量，使得它们更靠近输入向量移动由学习速率确定的因子。训练期间半径和学习率下降。以这种方式，Kohonen节点将它们自身排列成反映输入数据结构的模式。

Arrigo等在来自四种人胰岛素受体基因的cDNA的非重叠窗口上培养了具有30个Kohonen节点的网络。在每个序列中，其中一个输入模式以一些不太清楚的描述方式被提取为单数; 事实证明，提取的图案完全或部分在编码SP的DNA中，适用于各种窗口尺寸。但是，目前尚不清楚这个结果是否与SP有任何关系。由于该方法未在没有SP的蛋白质上进行测试，因此从中得出的唯一结论是胰岛素受体的阅读框架的初始部分在某种程度上是特殊的。这可能是由于SP，但它也可能是密码子偏倚和基因内位置之间相关性的影响[52]。

另一个早期的ANN由Schneider和Wrede [53,54]制作，他们使用移动窗口训练前馈ANN以预测SP切割位点。代替稀疏编码，使用七种物理化学性质来表示AA的序列。在一次训练具有单个属性的网络之后，选择其中四个来代表最终架构中的AA。训练是用遗传算法而不是反向传播完成的。计算是在源自大肠杆菌的极小数据集上进行的：17个用于训练的序列和7个用于测试的序列。最终预测因子在按最高分数分配时，正确放置了7个测试切割位点中的3个[54]。

在训练预测器后，将其用于“模拟分子进化”实验：对12-aa序列片段的群体进行随机变化，然后根据其根据ANN的推定信号序列切割位点的分数进行选择。在重复多代后，发现了许多“最佳”切割位点，精确的序列取决于所使用的距离度量[54]。值得注意的是，这些都包含Trp，尤其是在-2和-5位置，并且它们具有由Phe支配的h区域。随后在体内测试得分最高的切割位点区域在大肠杆菌表达系统中促进分泌的能力[55]。事实上，富含Phe和Trp的构建体（FFFFGWYGWA↓RE）是完全可切割的，但野生型（LAGFATVAQA↓AC）和“共识”模式也是如此，这种模式来自更简单，类似于矩阵的方法（VVIMSASAMA↓AC））。

尽管整个过程仅基于来自24个序列的统计数据，但结果提出了一个有趣的观点：当使用线性方法时，最佳示例看起来像是训练样例的一致性;但对于非线性方法，情况不一定如此。值得注意的是，根据人工神经网络得分最高的例子在其他罕见的AA中非常丰富。那么，有没有理由期望非线性优化的“FFFFGWYGWA↓RE”比线性优化的“VVIMSASAMA↓AC”更有效的解理位点？可能不是。即使我们假设特殊残差不仅仅是抽样误差的影响，最高的ANN分数也可以在训练数据未涵盖的序列空间区域中找到，这意味着这里的网络分数是外推而不是插值。并且由于人工神经网络不包含分数应如何随输入变化的任何物理化学模型，而只是将非线性函数拟合到示例中，因此插值的良好推广并不一定意味着外推中的良好推广。拟合函数的非线性越大，我们就如何在拟合数据区域之外继续进行假设就越少。

1994年Schneider和Wrede的论文[54]在Darius和Rojas [56]的评论中遭到严厉批评，他在其他观点中写道：“拟合函数值的”质量“一词给人的印象是一些生物学意义与拟合函数的值严格地在0和1之间相关联，但没有理由进行这种解释，并找到拟合达到最大值的点是没有意义的。“

SignalP 1.0 [38,57]是1996年第一个基于机器学习的SP预测方法，可在线作为网络服务器使用。 SignalP使用具有移动窗口的两个不同ANN的组合：一个训练以识别SP内的所有位置，一个训练以特别识别切割位点。这两个网络的输出分别被称为S-score和C-score。然后将这些组合成Y分数，该分数是C分数和S分数斜率的函数，用于预测切割位点的位置。这种组合两个人工神经网络的方式受到了1991年内含子拼接点预测器NetGene的启发[48]。

1999年的SignalP 2.0 [58]增加了隐马尔可夫模型（HMM，参见第2.5节），这使得有可能将切割的SP与未切割的信号锚区分开来，而2004年的SignalP 3.0 [59]引入了D-得分（平均值）最大Y分数和平均S分数）作为SP和其他序列之间更好的鉴别器。 2011年的SignalP 4.0 [60]带来了负面数据的新定义：它不仅仅是可溶性细胞内蛋白质和信号锚，它现在包括所有在前70个位置都具有TM螺旋的TM蛋白，因此可能被误认为是SP。这大大减少了TM蛋白产生的假阳性数量。不幸的是，SignalP 4.0的灵敏度也低于SignalP 3.0，这导致了许多用户的抱怨，他们最喜欢的SP突然不再被正面预测。因此，SignalP于2012年更新至4.1版，并可选择替代SignalP 3.0灵敏度的替代阈值[61]。

在原核生物中，有几种类型的SP。 SignalP版本1-4仅能够预测SP的“标准”类型，其通过Sec易位子转运并被信号肽酶I（也称为前导肽酶）切割。然而，还有专门的原核脂蛋白SP，它们被信号肽酶II（也称为脂蛋白信号肽酶）切割; 这些具有不同的切割位点基序，在+1位置具有100％保守的半胱氨酸[62]。此外，还有SP通过Tat translocon指导他们的蛋白质; 这些在n区具有特征性的双精氨酸基序[63]，并且通常比Sec SPs更长且疏水性更低[64]。在我们的小组中，单独的人工神经网络被训练来预测这些SP，分别构成了2003年[65]和2005年TatP [66]的预测方法LipoP的核心。

2003年，一个意大利小组发表了SPEPlip [67]，这是一种基于人工神经网络的方法，在架构上与SignalP非常相似。它与简单的PROSITE模式相结合[68]，使得区分信号肽酶I切割的“标准”SP和信号肽酶II切割的脂蛋白SP成为可能。

到目前为止提到的人工神经网络通常最多只有一个隐藏的计算神经元层。原始反向传播算法对于具有多个层的深度网络不能很好地工作，因为在最终输出层处产生的误差不容易用作用于调整权重的分层结构中的进一步精确度量。在深度ANN中，许多层可以以非常强大的方式过滤和重新排序特征。使用单个隐藏层通常是不可能的，除非使用大量通常会导致过度拟合的单位。深度ANN架构能够执行复杂的特征工程，而不仅仅是在特征空间中建立一个简单的决策边界，这是由于输入到隐藏转换可以实现的更为温和的特征工程（当隐藏层大小适中时）。较新的深度学习技术解决了这些问题，同时保持可调参数的数量。这些技术可以应用于具有多个层的前馈网络，但也可以应用于具有循环的循环网络，这些循环可以记忆与所需输出相关的特征[69,70,71,72]。

2017年，DeepSig [73]（来自发布SPEPlip的同一组）引入了SP预测的深度学习。它基于卷积人工神经网络，可以将其描述为一组移动窗口，一次查看输入序列的一小部分。在DeepSig中，有三个连续的卷积层组合进入平均汇集层。接下来是所谓的泰勒分解（Taylor decomposition），这是一种估计输入序列中每个位置的相关性的层，用于将序列分类为SP或不作为SP。最后，通过语法约束的条件随机场来指定切割位点，该概率模型类似于具有语法结构的HMM，在这种情况下，定义SP的三个区域。 DeepSig接受了SignalP 4.0数据的训练，据报道在大多数情况下表现优于它。

最近发布的SignalP 5.0 [74]基于递归类型的深度ANN，其中信息不仅从输入流到输出，还在隐藏单元之间流动。 SignalP 5.0的循环体系结构使得放弃移动窗口成为可能，移动窗口定义了早期版本的SignalP中的C和S分数。相反，所谓的长期短期记忆网络可以采用不同长度的序列作为输入，并且如果需要，从序列的开头记住特征，同时将位置进一步分类到下游[75]。来自长短期记忆层的输出被传递到条件随机字段，该条件随机字段指定切割位点仅在SP位置之后，并且必须之后必须是成熟蛋白质位置。以这种方式，以计算Y分数和D分数的形式的后处理变得不必要。

SignalP 5.0的另一项创新是，它现在可以预测使用Tat途径的SP和由信号肽酶II切割的脂蛋白SP，这意味着用户不再需要咨询三种不同的预测工具，以便预测原核SP属于哪种类型至。

2.5 隐马尔可夫模型 Hidden Markov Models

在SignalP 2和3 [58,59]中，HMM独立于ANN预测SP。这种HMM不是在Pfam等蛋白质家族数据库中广泛使用的概况类型[76]; 相反，它反映了SP的通常描述，包括n-，h-和c-区域。 n区域和h区域由共同的AA分布建模; 仅在切割位点周围的单个位置分别建模。 HMM不是C分数和S分数，而是提供了三个区域和切割位点的概率。

在SignalP 2中使用HMM的最初原理是促进SP和信号锚（靠近N末端的未切割的跨膜螺旋）之间的区分。 SP和信号锚之间的区别不仅仅是具有切割位点的问题; 信号锚通常具有比SP更长的疏水区域。有趣的是，实验表明，仅通过延长h区域就可以将可切割的SP转换为信号锚[77,78]。我们的想法是，比人工神经网络更好的HMM能够模拟这种长度差异。然而，当构建SignalP 4 [60]并在新数据集上重新训练HMM时，我们发现它们在性能上不如人工神经网络，从而反驳了我们最初的想法。显然，具有足够大的输入窗口的ANN能够区分短疏水区域和长疏水区域。

构建识别SP的配置文件HMM并非不可能; 这是由Zhang＆Wood在2003年完成的[79]。但是，它的性能与SignalP 2.0中的HMM模块的性能不太匹配。

2004年基于HMM的Phobius TM拓扑预测方法还包括SP模型[80]。这对于TM预测具有两个优点：首先，避免了SP区域中TM螺旋的假阳性预测; 第二，携带SP的TM蛋白的拓扑结构受到成熟蛋白的N-末端必须在非细胞质侧的事实的限制。 Phobius中的SP模型非常类似于SignalP 2和3中使用的模型。

与TatP [66]和LipoP [65]类似，也提出了基于HMM的专门预测方法。 PRED-TAT [81]旨在区分Tat和Sec易位SP，以及预测它们的切割位点。 PRED-LIPO [82]预测在革兰氏阳性细菌中存在Sec / SPI SP和Sec / SPII SP，并可将它们与细胞质和N末端TM蛋白区分开来。最后，PRED-SIGNAL [83]是第一种使用HMM方法专门预测古菌来源及其切割位点的SP的计算方法。

2.6 支持向量机应用程序 Support Vector Machine Applications

与ANN和HMM不同，第三种主要的机器学习算法，即支持向量机（SVM），在SP预测中没有发挥重要作用。这与基于AA组成的亚细胞定位预测的情况形成对比，其中SVM非常重要（参见第4.1节）。 Vert在2002年[84]做了一个例外，他使用一类新的字符串来训练SP切割位点的SVM。他使用了一个-8到+2的窗口，区分了有和没有切割位点的窗口，并且表明SVM优于同一数据集上的重新训练的权重矩阵。然而，没有进行与ANN的比较。

一年后，蔡等人[85]发表了一个SVM，用于使用输入和多项式核的稀疏编码来预测SP切割位点。得到的性能没有与任何东西进行比较，但是它比Chou [39]在同一数据集上的“子站点耦合”方法略差。 2005年，王等[86]用字符串内核解决了同样的问题。他们使用相同的数据集对重新训练的权重矩阵进行了广泛的比较。对于小窗口（-8到+2），SVM优于权重矩阵，但对于较大的窗口（-13到+2或更大），SVM的优势消失了。

另一种SVM方法是TM拓扑预测器MEMSAT-SVM [87]，它也预测了SP。 MEMSAT-SVM由五个基于窗口的二进制分类器构成，其中一个是SP /非SP。它们使用传统的多项式或径向基函数内核而不是字符串内核进行训练。 MEMSAT-SVM特别有趣，因为它可以与两年前发布的基于ANN的MEMSAT3 [88]进行比较。 MEMSAT-SVM在几乎所有参数上都比MEMSAT3表现更好。

MEMSAT方法的窗口没有明确识别切割位点，并且文章中没有报道切割位点性能。当测试SignalP的版本4.0 [60]时，我们对MEMSAT3和MEMSAT-SVM进行了基准测试，发现它们都具有解理位置精度和回忆值接近零。关于SP和非SP之间的区别，我们可以确认MEMSAT-SVM优于MEMSAT3，但它仍然不是表现最好的方法之一。

2.7 基于同源性的方法 Homology-Based Methods

2007年的Signal-3L [89]是双层Signal-CF方法的进一步发展[41]（参见2.2节）。在本节中提到它是因为它增加了第三层，其中使用比对来改善切割位点预测。第二层表示许多切割位点，然后使用已知SP数据库的全局成对比对来选择其中的最佳候选者。据报道，性能优于PrediSi [36]，但未与其他预测器进行比较。

来自2008 [90]的Signal-BLAST是一种更简单的预测方法，它针对预先构建的SP参考数据库运行BLAST [91]，并且，如果它发现具有高相似性的命中同源蛋白质，则基于该分配来指定切割位点位置。。如果数据库中有注释的紧密同系物，这种方法非常有效，但这种方法的缺点是其性能完全取决于BLASTP算法可以检测到的序列相似性。当发现低序列或无序列相似性时，作者不会报告该工具的性能。在我们的手中[74]，当没有发现其参考数据库的命中时，Signal-BLAST表现不佳，因为它没有针对这些病例的回退策略。

2017年，Signal-3L更新为2.0版[92]，对该方法的架构进行了重大修改。第一层现在是SVM，其输入来自PSI-BLAST [91]轮廓，预测二级结构，预测紊乱和选定的物理化学参数，而第二层搜索保守域数据库[93]中的功能域以区分在SP和TM螺旋之间。然后第三层对应于原始Signal-3L的第二和第三层。据报道，在某些情况下，性能优于SignalP 4.1 [60]，尽管SignalP 4.1总是具有最低的假阳性率。然而，在SignalP 5.0基准测试[74]中，Signal-3L 2.0并不比SignalP 4.1更好。

当使用同源性预测SP及其切割位点时，应注意SP（和其他N末端分选信号）实际上比蛋白质的成熟区域更不保守[94]。因此，搜索整个蛋白质的数据库而不是SP的数据库可能是有益的。

三、跨膜蛋白质预测 Transmembrane Protein Prediction

TM蛋白质构成了最充分研究的膜蛋白类别之一。在数量上，它们占完全测序生物体中蛋白质总数的约30％，并且它们的作用是多样的并且对细胞的寿命很重要[95,96]。 TM蛋白研究的一个重要障碍是难以确定其三维结构，这主要是由于它们的疏水性[97]。为研究人员提供TM蛋白拓扑模型的自动计算方法的出现对该领域非常重要。这些模型告知TM段的数量和位置，以及与膜相关的方向。获得成功的拓扑预测的一个主要挑战是完全相同的疏水性，这导致错误地将N末端TM区段分配为SP，反之亦然[98,99]。

如上所述，Kyte和Doolittle在1982年发表了一篇关于显示蛋白质亲水性特征的论文中TM螺旋的预测[16]。为此，他们开发了一种基于水/蒸汽转移能量，埋藏/暴露倾向以及某些手动调整的新型亲水指数，后者被描述为“作者之间个人偏见和激烈讨论的结果”。他们的程序SOAP计算了重叠k残基片段的平均亲水值。虽然他们发现k = 9与埋藏和暴露的球状蛋白片段具有最佳相关性，但k = 19在TM片段和疏水性球状蛋白质片段之间产生了最佳区分。

同年晚些时候，Argos等人[100]发表了一种预测TM蛋白结构的方法。他们研究了AA的9种不同特性，并使用拟合程序对拟议的细菌视紫红质结构调整每种性质的重量，而不是沉淀一个疏水性标度。最终选出了九个特征中的五个。不是计算固定长度窗口内的平均值，而是使用平滑过程。虽然实现了与细菌视紫红质结构的良好一致，但该方法在区分TM区段和球状蛋白方面不是很好。

1985年的ALOM方法[101]与SOAP非常相似，但基于更大的数据集。测试了四种不同的疏水性标度，最终选择了Kyte-Doolittle亲水性。作者发现了17个残基窗口，可以最好地区分整合膜和外周膜蛋白，并设计了一个额外的程序来分配TM螺旋和环之间的精确边界。 ALOM后来作为PSORT预测方法的一个特征被引入（参见第4节）。

这些早期拓扑预测方法基于氨基酸的疏水性，作为检测序列中潜在TM区域的方法，但无法告知其方向。随着观察发现，在细胞的“内部”（细胞质环）中更常发现带正电荷的残基，这种观察结果发生了变化，这种观察结果被广泛称为“正内部规则”（‘positive-inside rule’）[102,103]。这一发现是在1992年的TopPred算法[104,105]中实现的，其中，软件首次可以决定给定区域是细胞质，细胞外还是TM。

1994年，MEMSAT算法[106,107]使用从充分表征的膜蛋白数据汇编的统计表，并通过组合动态规划和倾向量表，产生最佳的整体拓扑结构。在接下来的几年中，基于对氨基酸偏好和疏水性的统计分析，如PRED-TMR [108]和最近的SCAMPI [109]，已在2016年更新[110]，向公众提供了更多的方法。。

用于拓扑预测任务的HMM最初在1998年的TMHMM [95,111]和HMMTOP [112,113]方法中引入。在这些基于HMM的第一次尝试之后的几年，假设SP经常被错误地预测为TM 由于它们具有高疏水性，同时预测蛋白质拓扑结构和SP存在的更好的评分方法得以开发，从1994年的Phobius开始[80]。后来的发展包括PolyPhobius（使用进化信息[114]），Philius [115]，MEMSAT3 [88]，MEMSAT-SVM [87]和SPOCTOPUS [116]。

拓扑预测领域的关键改进是在预测过程中以多序列比对的形式包括进化信息，也称为概况(profiles)。早期算法仅使用单个序列作为输入; 然而，随着序列数据库随着时间的推移而增长，研究人员开始利用数据的可用性。 1993年，已经证明，profiles确实改善了蛋白质二级结构的预测[117]。 1994年[118]的TMAP和1995年的PHDhtm [119]的方法是第一个在拓扑预测中使用进化信息的方法。正如稍后在比较研究[120]中所示，这一步确实提高了准确性，并且自从多年后成为基于序列的预测算法开发过程中的标准步骤。

PHDhtm [119]是第一个将人工神经网络纳入TM蛋白预测过程的拓扑预测方法。通过使用概况，它为目标序列创建共识预测，然后使用“正内部规则”找到蛋白质的拓扑结构。类似地，也创建了使用进化信息的方法，如PRO / PRODIV-TMHMM [120]和OCTOPUS [121]。后者是ANN的组合，其预测内部/外部和膜/非膜残留物偏好和HMM，然后HMM用于计算最终拓扑。

在拓扑预测器中使用的其他机器学习方法是支持向量机（SVM）和动态贝叶斯网络（DBN），它们分别在MEMSAT-SVM [87]和Philius [115]中找到。最后，基于共识的方法，如CoPreTHi [122]，TOPCONS [123]，MetaTM [124]和CCTOP [125]，将几个预测变量的输出结合到使用动态规划的共识输出中，已经非常成功。

包括SP和TM区段模型的预测方法[80,87,88,114,115,116]对于蛋白质组范围的分析更有用。 TOPCONS共识拓扑预测方法TOPCONS2 [126]的更新版本也可以解释SP的存在，因此是大规模预测的理想选择。

还存在许多针对β-桶TM蛋白的拓扑预测的方法。这些包括基于疏水性分析的方法[127]，氨基酸的统计偏好[128]，远程同源性检测[129]，HMM [130,131,132,133,134]，SVM与HMM结合[135,136]，前馈神经网络[137,138]和径向基函数神经网络[139]。据我们所知，PRED-TMBB2 [134]是唯一可用作网络服务器的方法，它在拓扑预测中结合了SP预测。这是一个重要特征，因为细菌β-桶(β-barrel)蛋白应具有引导它们穿过内膜并朝向细胞外膜的SP。关于预测α-螺旋和β-桶TM蛋白的更多细节可在最近的综述中找到[97]。

四、多类别位置预测因子 Multi-category Location Predictors

显然，SP或一个或多个TM区段的存在与否不是关于蛋白质的亚细胞定位的全部故事。典型的用户不仅想知道是否存在某些分选信号，而且还知道蛋白质在细胞中的确切位置。一些预测者试图提供这项服务，第一次是1991年的PSORT [29,30]。这是一个使用排序信号和全局属性的多种预测方法的集成专家系统。一些组件是在PSORT组内开发的，其他组件是在其他地方发布的方法的实现，包括选定的PROSITE模式[68]。 PSORT是第一个显示这种程度整合的公开可用系统，它包括当时没有其他可用方法提供的位置预测，例如核和过氧化物酶体靶向。

所有组成预测变量都提供了特征值，然后将其整合以产生最终预测。在原始版本PSORT I中，使用“if-then”规则的集合以传统知识库的方式完成集成。这使得根据来自新数据集的信息调整规则非常困难; 因此，为了能够定期合并新数据，较新的PSORT II版本使用定量机器学习技术，例如概率决策树和k最近邻分类器来整合所有特征的分数[140,141]。

4.1 基于氨基酸组成的方法 Amino Acid Composition-Based Methods

除了识别分选信号（sorting signals）之外，蛋白质分选的预测可以利用不同亚细胞区室的蛋白质在全局性质上不同的事实，反映在AA组合物中。虽然信号预测方法可能更接近于模仿细胞中的信息处理，但基于全局属性的方法可以补充不完美的基于信号的方法，尤其是在不完整序列上。具体地，可以在不知道N-末端的情况下使用用于识别细胞外蛋白质的基于组合物的方法，并且可以对例如具有错误分配起始密码子的蛋白质片段或基因组序列给出正确的预测。一个缺点是这些方法将不能区分在存在或不存在分选信号方面不同的密切相关的蛋白质。

正如引言中所提到的，这种方法构成了Capaldi和Vanderkooi以及Barrantes [12,13,14]尝试识别整合膜蛋白的蛋白质分选预测的开始。 1994年，Nakashima和Nishikawa [142]通过使用简单的比值比统计来基于AA组成和AA对频率区分可溶性细胞内和细胞外蛋白，从而重新建立了这一系列研究。包括AA对（由最多四个位置分开）相对于单独的AA组合物改善了8％的性能。

1997年，Cedano等人将可能的位置数量扩大到五个：细胞内，细胞外，跨膜，膜锚定和核; 并使用所谓的马哈拉诺比斯距离（Mahalanobis distance）进行区分。该度量考虑了AA之间的交互（注意：不是位置之间的交互;输入仅是20个AA频率），因此能够处理由AA组合定义的20维空间中的非线性映射。他们的算法名为ProtLock，可用作可下载的程序。 Chou和Elrod [144,145,146]在后来的三篇论文中对这种方法进行了改进，他们使用了Mahalanobis距离的修改版本，其中一个额外的术语补偿了类别之间的大小差异。

Reinhardt和Hubbard从1998年开始的NNPSL方法[147]使用在整体AA组成上训练的ANN来预测位置。他们区分了三个细菌区室（细胞质，周质和细胞外）和四个动物/真菌区室（细胞质，细胞外，线粒体和核）。有趣的是，发现植物蛋白的预测非常差，并且不包括在最终方法中。 NNPSL数据集随后被其他采用不同机器学习技术的人使用，特别是1999年使用Markov链[148]和Hua和Sun在2001年使用SVMs的方法命名为SubLoc [149]。

这些早期基于组合物的方法的一个相当令人不安的方面是它们缺乏适当的数据同源性降低。如果测试集包含与训练集中的序列非常密切相关的序列，则这些蛋白质在AA组成空间中也将彼此接近，并且预测性能将被高估。为了估计新的不相关序列的真实泛化性能，应该减少或分割数据集以避免训练和测试之间的同源性，并且当两个蛋白质过于密切相关时的阈值应设置为无法通过以下问题解决问题的值：单独对齐。在蛋白质结构预测领域，确定阈值和进行减少的方法发表于20世纪90年代早期[150,151]，关于SP预测，在1996年的论文[152]中详细讨论了阈值的选择。但是在基于AA组合的方法中，它显然被忽略了十年。 NNPSL数据集的同源性降低，但仅低至90％同一性[147]，而Chou和Elrod仅从数据集中排除了具有相同名称的蛋白质[144,145,146]。

通过三种基于SVM的方法，LocTree [153]，CELLO [154]和BaCelLo [155]，在2005和2006年将更好的同源性降低引入该子域。它们都在序列的部分中通过AA组合物补充总AA组合物（并且在CELLO的情况下，也是AA对组合物）。虽然CELLO将序列划分为多个相等长度的子序列，但BaCelLo使用一组固定长度的N-和C-末端窗口，而LocTree分别计算了三种预测二级结构状态的AA组成。 BaCelLo和LocTree都搜索序列数据库以创建配置文件并在这些配置文件中计算AA组成而不是查询序列本身。 CELLO作者彻底检查了比对和机器学习预测之间的关系，并报告说，超过30％的同一性，对齐比基于SVM的预测系统表现更好。同样，BaCelLo的作者报道，NNPSL数据集中亚细胞定位的预测可以通过BLAST搜索[91]进行，其中每种蛋白质的定位简单地预测为数据集内最接近的同源物的定位。这个简单程序的性能实际上优于基于机器学习的方法NNPSL和SubLoc，并且与两个较新的方法（LOCSVMPSI [156]和ESLpred [157]）处于同一水平。

如果AA组合方法无法检测到分选信号，为什么AA组合方法在某种程度上起作用？由于TM螺旋的强疏水性影响AA组成，因此区分TM与可溶性蛋白质是不可能的。内膜与外膜TM蛋白的区分也应该非常容易，因为它们通常分别是α-螺旋与β-折叠蛋白。更令人惊讶的是，通过AA组合区分不同区室的可溶性蛋白质是可能的。一个合理的解释是蛋白质表面反映了它们的隔室的化学性质（酸度，离子浓度等）。安德拉德等人 [158]发现总AA组合物中的信号，使得识别亚细胞位置成为可能，几乎完全是由于表面残基。

4.2 基于同源性的方法Homology-Based Methods

可以说，最简单的亚细胞位置预测方法是前一小节中描述的BLAST搜索：在注释示例的数据库中分配最佳命中的亚细胞位置。这是基于这样的假设：蛋白质在进化过程中倾向于停留在同一区室中，这似乎是从与亚细胞定位相关的序列保守性的广泛分析来判断的[159]。

Imai和Nakai在2010年[160]表明，如果数据集不是同源性降低的话，这种方法在确定的预测器（CELLO 2.5 [154]，MultiLoc2 [161]和WoLF PSORT [162]）上优于3种，并且它如果数据集的同源性降低到30％同一性，则与预测器相同。这个结果在2014年由LocTree3方法的作者使用[163]：它只是在注释数据库中输出最佳BLAST命中的位置，如果该命中数的E值优于某个截止值，则返回其前身，基于SVM的LocTree2 [164]，否则。细菌特异性预测因子PSORTb 3.0 [165]使用了类似的方法组合。

除了直接转移同源物位置注释之外，还有其他方法可以使用同源信息。一种方法是计算每种蛋白质的系统发育谱 - 一组具有测序基因组的生物体中与该蛋白质匹配的发生模式的规范。这是由Marcotte等人开创的。[166]。另一种方法是搜索特定位置特征的保守结构域或基序[167]。

除了亚细胞位置信息之外，还可以使用同源注释的其他部分。一些predictors使用检索到的同源物的基因本体论（GO）术语[168]作为其方法的输入，包括GOASVM和mGOASVM预测因子[169,170]和iLoc预测家族[171,172,173,174,175， 176,177]。 GO术语可能包含更丰富的信息来源，但它们也经常包含本身预测的术语，可能导致循环推理的情况，特别是如果使用基于GO的预测变量来分配新的GO术语。 PA-SUB预测器[178]采用了这方面的其他方法，它们查看了检索到的同系物的UniProt条目中某些关键词和短语的出现，以及SherLoc预测器[179,180]从UniProt条目链接的摘要进行文本挖掘。

使用基于AA组合物或基于同源性的方法有两个优点。首先，它们也可以用于那些实际分类信号未知的区室，或者太难以表征以支持适当的基于信号的预测方法。其次，它们可能适用于序列，这些序列可能缺失实际的分选信号，或者来自基因组或宏基因组序列的氨基酸序列，其中蛋白质的起始密码子未被正确预测，从而模糊了任何N末端分选信号。在缺点方面，基于AA组合或基于同源性的方法不能提供对细胞中信息处理的相同程度的洞察，因为它们通常忽略序列的哪些部分对于分选实际上是重要的。另一个缺点是这些方法将不能区分存在或不存在分选信号的非常密切相关的蛋白质，并且它们将不能预测破坏或产生分选信号的小突变的影响。

4.3 综合方法 Integrated Methods

如上所述，PSORT I是1991年第一个蛋白质亚细胞定位预测的综合方法。它在1996年[140,141]由PSORT II继承，后来由PSORTb继承细菌蛋白[165,181,182]和真核蛋白的WoLF PSORT [162]。所有这些方法都基于预测例如预测的特征预测器。 SP或TM螺旋，以及整合特征预测器输出的分类系统。如上所述，同源组分也是PSORTb 3.0 [165]的一部分。

MultiLoc在2006年[183]采用了类似的方法，该方法将基于SVM的N末端分选信号预测与基于AA组成的基于SVM的预测和分类相关基序（例如核定位信号）的数据库相结合。集成由另一层SVM完成。 2009年的MultiLoc2 [161]另外纳入了系统发育谱和检索到的同源物的GO术语。

2010年的YLoc [184,185]使用了一种不同的技术，即NaïveBayes分类器，在大量简单特征之间进行选择并集成所选特征。 NaïveBayes是一种线性方法，通常优于ANN，HMM或SVM。然而，优点在于它不仅提供预测，而且还提供以在每种特定情况下导致预测的特征列表的形式进行预测的原因。 YLoc可以任选地在预测中包括GO项。

2012年的LocTree2 [164]是一个排列在层次结构或决策树中的SVM系统。每个决策都是由SVM使用配置文件内核做出的，配置文件内核是一种字符串内核，用于计算PSI-BLAST [91]制作的序列配置文件中短基序的频率。

最后，深度学习也从2017年开始以DeepLoc的形式进入多位置预测领域[186]。 DeepLoc使用卷积和循环ANN的组合以及所谓的关注层，该关注层为序列中的每个位置分配权重。以这种方式，用户获得每个输入序列的哪些部分对于预测是重要的指示。 DeepLoc不使用来自同源物的任何注释，但其性能仍然优于其他七种方法，包括基于GO的方法，如MultiLoc2 [161]和iLoc-Euk [171]。

五、讨论

基于非常简单的统计数据，35年前首次尝试预测蛋白质序列中的SPs。从那时起，该领域在更广泛的生物信息学领域的方法学发展方面取得了进展，例如使用权重矩阵，人工神经网络，HMM，SVM，以及最近的深度和经常性人工神经网络。反过来，这些越来越“数据匮乏”的方法已经通过我们在过去几十年中目睹的高通量DNA测序革命成为可能。从历史的角度来看，这可以作为计算机科学和湿实验室分子生物学的发展如何在创建我们今天看到的基于序列的生物信息学的广阔领域中相互促进的一个很好的例子。

很难估计SP预测方法对生物学的全面影响，但很明显它们在蛋白质组学研究，基因组注释，潜在药物靶标的鉴定以及多种情况下都发挥了重要作用。特定的蛋白质被分泌或膜锚定对于理解其功能至关重要。

在快速增长的基因组数量已被测序的时代，实验证实亚细胞定位，分子功能，翻译后修饰等的注释不会以几乎相同的速度生长。因此，在扩展的序列数据海洋中，实验注释的岛屿越来越远。这意味着基于同源性的方法，其主要依赖于它们用于预测的注释的质量，具有越来越稀疏的高质量数据基础。这也意味着机器学习方法应该找到一种方法来利用未注释数据中固有的信息。

随着我们对细胞结构和区室化的了解的改进，对于单细胞技术的革命，对于预测蛋白质亚细胞定位的新方法甚至更好方法的需求将保持不变。特别是，基于信号的多类别定位方法仍然存在重大改进的空间，这些方法可以通过对实际分类信号进行建模而不依赖于AA组成或同源性，以高可靠性对多个细胞位置之间的蛋白质进行分类。虽然在许多方面已经成熟，但该领域仍然对生物信息学家提出了有趣的挑战。

问题

h-region 和n-region是什么东西？

参考资料

The Protein Journal (2019) 38:200–216 https://doi.org/10.1007/s10930-019-09838-3 A Brief History of Protein Sorting Prediction. https://link.springer.com/article/10.1007%2Fs10930-019-09838-3

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn