【4.3.6】基于结构预测非连续BCE--DiscoTope-2.0

August 01, 2020 antibody 阅读量：次

官网：http://tools.iedb.org/discotope/

抗体和抗原之间的相互作用是从宿主清除感染性生物的最重要的免疫系统机制之一。抗体在称为B细胞表位的位点与抗原结合。在一些生物医学应用中，鉴定B细胞表位的确切位置至关重要。合理的疫苗设计，疾病诊断和免疫疗法的开发。然而，表位的实验作图是资源密集型的，使得计算机方法成为有吸引力的补充方法。迄今为止，已报道的计算机模拟B细胞表位的方法的性能中等。但是，有关评估数据集的几个问题可能会导致性能值被低估：

很少，所有潜在的表位都已映射到抗原上，
并且在给定的生物学环境中通常针对抗原而不是针对抗原单体产生抗体。

处理这些方面不当会导致许多人为的假阳性预测，从而导致错误的低性能值。为了证明适当的基准定义的影响，我们在这里介绍了DiscoTope方法的更新版本，该方法结合了新颖的空间邻域定义(spatial neighborhood definition )和半球曝光(half-sphere exposure)作为表面度量。与其他最新的预测方法相比，Discootope-2.0在交叉验证和独立评估中均显示出更高的性能。使用DiscoTope-2.0，我们使用适当的基准定义评估了对性能的影响。对于训练数据集中有足够生物学信息可进行适当基准重新定义的13种蛋白质，平均AUC性能从0.791提高到0.824。同样，独立评估数据集的平均AUC性能也从0.712提高到0.727。因此，我们的结果表明，给定适当的基准定义后，B细胞表位预测方法可实现非常重要的预测性能，表明这些工具是合理表位发现中的强大资产。 DiscoTope的更新版本可从 www.cbs.dtu.dk/services/DiscoTope-2.0 获得。

作者总结

人类的免疫系统具有抵抗病原体（细菌，真菌和病毒感染）的强大能力。清除传染性生物涉及的最重要的免疫系统事件之一是抗体与抗原（分子，例如病原性生物的蛋白质）之间的相互作用。抗体在称为B细胞表位的位点与抗原结合。因此，鉴定能够结合抗体（也称为B细胞表位）的表面抗原上的区域可以有助于各种免疫相关应用的发展（例如疫苗和免疫治疗）。但是，B细胞表位的实验鉴定是一项资源密集型任务，因此使计算机辅助方法成为一种有吸引力的补充方法。先前报道的用于预测B细胞表位的方法的性能中等。在这里，我们提出了B细胞表位预测方法的更新版本； DiscoTope，基于蛋白质结构和表位倾向评分，可预测可能与B细胞表位有关的残基。我们证明，性能低下在一定程度上可以由定义不佳的基准来解释，并且包含其他生物学信息可以大大提高预测性能。这表明，在给出适当的基准定义的情况下，最新的B细胞表位预测方法的性能要比一般假设的要好得多。

一、前言

抗体和抗原之间的相互作用一直是免疫学研究和应用中多学科关注的焦点[1] [2]，并且已经有十几种方法用于计算抗原表面（B细胞表位）上的抗体结合的计算作图。但是，这些方法的性能通常是中等的[3] [4]。

通常，基于进行预测所需的信息水平，用于预测B细胞表位的方法可以分为两组：

利用仅来自蛋白质序列的信息的方法
利用蛋白质3维结构的信息的方法。

传统上，基于序列的方法是通过亲水性，柔韧性，β-转角和表面可及性的计算构建的[5] [6] [7] [8]，并且近年来，利用氨基酸组成和氨基酸协同性的方法显示出令人鼓舞的结果[9] [10] [11]。尽管这些方法在预测由连续氨基酸组成的表位（线性表位）时表现合理，但它们无法预测由氨基酸片段组成的表位，这些氨基酸段在蛋白质序列中相距遥远，并且通过多肽链的构象折叠而聚集在一起（构象表位）。

包含结构信息在一定程度上克服了基于序列的方法的缺点，因为可以识别序列上相距遥远但空间上相近的氨基酸。 Andersen及其同事[12]研究了Parker量表[6]和表位氨基酸组成的性能，以及从蛋白质3维结构衍生的用于预测构象表位的方法，并得出结论，结构数据的引入明显优于基于序列的方法。所开发的方法DiscoTope的作用是，用10Å球体探测所研究蛋白质结构的碳骨架，将球体中残基的倾向性得分相加，然后减去邻居计数（球体中氨基酸残基的数量）。其他方法将结构邻域定义为最接近表面暴露的残基[13]或蛋白质表面的斑块[14] [15]。结构数据的引入进一步扩展了可以计算并用于预测的物理化学和生物学属性的数量[13] [16]，如鲁宾斯坦和同事的工作所证明的[15]。在他们的工作中，鲁宾斯坦等人[15]从已知表位的3维结构中计算出45个属性，并将其用于预测。有趣的是，仅一部分属性（21/45）以前被证明可以显着地区分表位和非表位区域，对预测至关重要。同样，由Liang和他的同事[13]开发的EPSVR方法在支持向量回归算法中实现了6个倾向评分，其中3个与抗原性相关[17]，其余3个与表面暴露相关。但是，这两种方法以及其他利用大量功能的方法的性能仍然只能达到与使用两个或三个属性的简单模型相当的预测性能值[4] [12] [18] [19] [20]。通常，基于结构的方法在实现以下特征时最成功：氨基酸组成[12] [15] [18]，表位氨基酸协同[15]，二级结构[13] [15]结合一种或多种表面测量例如RSA [21]，邻居计数[12]，半球邻居计数[22]和突出索引[23]。

虽然结构信息显着改善了对B细胞表位的预测，但是蛋白质结构的使用带来了几个主要问题：

首先，尽管已分解的抗原抗体结构的数量在增加，但用于构建基于结构的模型的数据仍然很少。
其次，为了绘制详尽的表位残基图谱，已经很少研究抗原。未表征的表位的存在使得难以准确评估预测模型的性能，因为即使是完美的预测也会将实验中未检测到的表位归类为假阳性。
此外，生物学相关的蛋白质通常是较大复合物的一部分，这些复合物在它们所属于的生物环境中表现为一个单元。但是，通常无法获得有关整个“生物单位”的结构信息，因此导致缺乏正确预测B细胞表位所必需的信息。

在这里，我们提出了基于结构的预测方法DiscoTope的改进版本，该方法使用对空间邻域的重新定义进行更新，该空间邻域用于对倾向得分和半球曝光进行总和作为表面度量。使用这种更新方法，我们可以说明何时以及为什么预测可能会失败，并显示失败的预测在某种程度上可以由定义欠佳的基准设置或对给定抗体应答负责的生物单位的定义不完整来解释。

二、结果

DiscoTope方法[12]受以下因素的组合驱动：

表位和非表位残基之间氨基酸组成的统计学差异，以对数比(log-odds ratios)[24]计算，
定义用于整合log的空间邻域的定义 -残基附近的奇数比(log-odds)
表面量度。

由于空间邻域的定义和表面测量都不是琐碎的任务，因此本研究的目的之一是研究用于定义空间邻域和不同表面测量以提高B细胞表位预测准确性的新评分功能的能力。接下来，鉴于这种改进的预测性能，我们旨在证明改变基准设置以包括针对每个抗原表位的多个表位信息，以及用于提高抗体反应的“生物单位”，可以显着提高报告的预测能力。

2.1 定义空间邻域：通过对数比进行预测

几种预测B细胞表位的方法已成功利用表位和非表位氨基酸组成的差异[12] [15] [13] [10]。在这里，表位氨基酸组成被计算为表位和非表位中氨基酸频率之间的比率的对数，如Andersen等所述。 [12]。一种新颖的评分功能，在残基的空间附近整合了氨基酸对数比值，用于计算用于预测的组合对数比值。该功能是受Andersen等人的工作启发的。 [12]和Sweredoski和Baldi [18]，将每个残基周围的邻域定义为相邻对数奇数(log-odds ratios )比之和，该对数奇数比由函数加权，该函数随距离同时减小。与Sweredoski和Baldi [18]提出的功能不同，后者使用5个距离阈值逐步降低对数奇数比的权重，此处提出的功能仅由两个参数定义：顺序平滑窗口w和距离刻度k ps（有关详细信息，请参见“材料和方法”）。这些参数是通过对[12]中所述的DiscoTope数据集进行二维网格搜索来估计的，最优值分别为w = 1±0（即不平滑）和kps = 21.6±0.90Å，其中给定的值是5倍交叉验证训练过程的平均值和标准差。因此，发现最佳参数在交叉验证中的每个数据集之间都是稳定的。使用这种接近和功能通过对数奇数得分预测B细胞表位的性能为AUC 0.738（图1）。

2.2 表面措施的预测 Predictions by surface measures

测试了从蛋白质结构计算出的5种不同的表面度量来区分表位与非表位残基的能力（有关详细信息，请参见材料和方法以及表S3）。如图1所示，所有度量均具有可比的预测性能，没有任何方法明显优于其他度量（在所有情况下，p> 0.11）。

2.3 结合表面和对数比得分 Combining surface and log-odds ratio scores

接近度总和的对数比之和与表面测量值的加权和被用来给出总的预测得分（有关详细信息，请参见材料和方法）。将对数比值得分与上半球（UHS）的邻居计数相结合时，可获得最佳性能，该结果使用交叉验证的基准程序在DiscoTope数据集上的平均AUC为0.748。该方法优于原始的DiscoTope方法（0.711。p = 0.0022）和所有未组合的方法（p <0.028）。由于该方法是由原始DiscoTope方法中引入的主要原理驱动的，因此我们将此方法命名为DiscoTope-2.0。

出人意料的是，与对数比值得分(log-odds ratio )相结合，能够显着改善性能的仅有两个表面测量方法是UHS和RSA，它们各自的预测能力最低。但是，FS，Ta和HSE得分与对数奇数得分的相关性明显强于UHS和RSA得分（p <10^-6，UHS，RSA和0.51-0.55以及FS的Pearson相关系数为0.37-0.39 ，Ta，HSE）。因此，这些结果表明，与FS，HSE和Ta得分相比，UHS和RSA得分与对数奇数得分包含更多互补信息，这说明了为什么这些表面量度在组合模型中是最佳的。

DiscoTope-2.0模型（结合了表面度量和对数总和对数得分）与仅对数总和对数得分相比，预测性能的提高相对较小（见图1）。这可能表明来自表面暴露的信号在一定程度上嵌入了对数奇数得分，这也可以从上面的相关分析中得出。从在表位残基与非表位残基中发现的氨基酸频率之比计算对数奇数得分。由于B细胞抗原决定簇通常是暴露的，因此对数奇数将包含对通常暴露的氨基酸的隐性偏倚。为了研究这种偏见的影响，我们重新计算了对数奇数比，不包括相对表面可及性（RSA）分别低于阈值0.01、0.05和0.10的残基，并重新训练了所有参数。注意，一组表位残基的平均RSA值为0.30。因此，在此设置中，将非表位残基的集合更改为仅包含暴露的残基（处于不同阈值），从而降低了对数比值中对暴露的优先偏向。单数对数分数的预测性能随表面暴露阈值的增加而降低（阈值0.01、0.05和0.10分别为AUC 0.731、0.704和0.656），并且在组合对数奇数时对表面测量分数给予更大的权重和表面测量分数（有关详细信息，请参见图S1和S2）。通过重新计算的对数奇数得分无法结合5种表面测量方法恢复预测能力的损失，并且在所有情况下，组合方法的性能均比使用原始对数奇数得分的DiscoTope-2.0方法差（数据未显示）。因此很明显，对数奇数得分的高性能在很大程度上可以归因于区分表面和非表面氨基酸偏好的固有信号，而不是区分表位与非表位表面残基的信号。。

2.4 正确定义基准数据的影响 Impacts of proper definition of benchmark data

评估预测模型的一个关键方面是基准数据集的质量和一致性。特别地，由于正确地将正确的预测标记为假阳性，因此基准数据的不完整注释会导致人为地降低预测性能。定义了高性能的B细胞表位预测因子后，我们可以访问此类不完整的基准定义对基准性能的影响。正如Andersen和同事[12]最初定义的那样，本工作中用于模型开发的交叉验证基准设置遭受了不完整注释的多个方面的困扰。在基准测试中，DiscoTope数据集中的75种抗原-抗体复合物中的每一种都被视为单个实体，而忽略了相同抗原可能包含多个表位的事实。由于每种抗原-抗体复合物都作为单个实体处理，因此仅将给定复合物中定义的单个表位区域注释为阳性，而忽略了其他具有相同抗原的抗体复合物中定义的其他已知表位区域。正如Ponomarenko和Bourne [3]和Liang等人，[13]早些时候意识到的那样，该注释方案不是最佳的，并且为了评估它如何影响预测性能，具有多个表位的抗原的AUC得分（表S1）如前所述[25]，重新计算了它们的残基，并去除了基准中包括的其他抗原：抗体复合物中标注为表位的残基。溶菌酶在数据集中具有29种抗原-抗体复合物，说明了这一作用最为显着。考虑到表位的多种定义，AUC分数从0.682增至0.847（图2）。 6种受影响蛋白质中有5种的AUC评分在性能上有所提高，平均提高了0.039（图3）。此外，映射到每种抗原上的非相似表位的数量与DiscoTope-2.0的性能显着相关（Spearman等级相关系数为0.33，p <0.01，精确置换测试）。请参阅材料和方法中非相似表位的定义。

基准定义的另一个可能对预测性能产生重大影响的方面是为用于计算预测得分的每个残基定义邻域环境的数据。蛋白质通常是较大的复合物的一部分，其表现为一个生物单位。在大多数情况下，产生针对整个“生物单位”的抗体，而不仅仅是针对组成表位的单位的一部分。在Andersen等人描述的DiscoTope数据集中，[12]仅使用与抗体相互作用的链来定义抗原中残基的结构环境。然而，当它们实际上参与与另一条链的复杂形成并且对于抗体而言不可及时，这可能导致一些残基被认为与表位高度接触并被预测为表位。为了通过包括生物单位而不是单个抗原链来调查对预测性能的影响，重新计算了抗原复合物子集的性能，其中使用生物单位作为输入在PDB文件中提供了有关生物单位的其他结构信息。这10种受影响的蛋白的AUC平均增加了0.020，KvAP钾通道和细胞色素c蛋白显示出最大的增加（图3）。图4说明了KvAP钾离子通道预测的变化。仅使用抗原：抗体链作为输入，DiscoTope-2.0的性能为0.737。当包括整个生物单位时，该值增加到0.880，并且不包括归类为细胞质或跨膜的残基（UniProt版本2012_01，www.uniprot.org），因此无法与抗体结合，性能值进一步提高到0.946。受基准重新定义影响的13种蛋白质（同源组）的平均性能从0.791的AUC增加到0.824（p <0.035），整个DiscoTope数据集的平均性能从0.748的AUC增加到0.765。表S1列出了DiscoTope数据集中每种抗原的性能。

2.5 与PEPITO，ElliPro，SEPPA，Epitopia，EPCES和EPSVR预测方法的比较

除了评估DiscoTope-2.0对DiscoTope数据集中包含的75种抗原结构的性能外，还对从IEDB-3D数据库中提取的独立评估数据集进行了性能评估。数据集由52个抗原结构组成，与DiscoTope数据集没有序列重叠（请参见材料和方法）。为了避免偏向由多种结构代表的抗原，基于抗原序列的相似性，将52个结构分为33个同源性组。最初以与DiscoTope数据集相同的方式定义表位和基准程序，因此仅包括与抗体相互作用的链（无生物学单位），同一抗原的多个表位被视为单个实体（多个表位未包含）占）。

在评估基准数据集上，DiscoTope-2.0的平均预测AUC性能为0.731，高于原始DiscoTope方法的平均预测AUC性能（0.705）。然而，该差异并不显着（p≤0.086）。评估数据集还用于比较DiscoTope-2.0与PEPITO（也称为BEpro）[18]，ElliPro [19]，SEPPA [26]，Epitopia [14]，EPCES [27]和EPSVR [13]的性能,这些是基于蛋白质3维数据预测构象B细胞表位的其他最近开发的方法。 DiscoTope-2.0的平均AUC性能显着高于ElliPro（0.686，p = 0.041），与PEPITO的平均AUC性能（0.732，p = 0.53）相当。与SEPPA，Epitopia，EPCES和EPSVR预测方法的比较是在评估数据集的子集上进行的，这些子集与用于训练方法的数据没有序列相似性（爆炸E值<0.01）。在这些降低的基准数据集上，DiscoTope-2.0与SEPPA（0.720对0.711，p = 0.34，使用34种结构）和EPCES（0.733对0.695 p = 0.15，使用49种结构）相比，显示了改善的AUC性能，与Epitopia（ 0.727对0.652 p = 0.033，使用了43种结构）和EPSVR（0.746 vs 0.588 p = 0.006，使用了24种结构）。补充资料表S4中提供了评估数据集上DiscoTope-2.0，DiscoTope-1.2，PEPITO，ElliPro，SEPPA，Epitopia，EPCES和EPSVR的AUC值。请注意，对于评估数据集，每种抗原最多只能使用四个抗体：抗原结构。对于训练数据集，该数字高达29（溶菌酶）。如前所示，评估数据集中抗原的抗体抗体结构数量如此低，固有地转化为每种抗原中所含表位的注释不完整，从而导致基准定义不正确，从而导致基准性能低下。

AUC值给出了在整个特异性范围内集成的方法的总体预测性能。通常，另一个相关的性能指标是一组给定的高得分预测中有多少是实际阳性（预测阳性值，PPV），以及这组预测中包含的实际阳性分数（灵敏度）有多大。假设平均B细胞表位包含15个残基（表S1），我们根据不同方法从每种抗原的前15名和前30名最高评分预测的子集中计算出平均PPV和敏感性值。表1显示了使用整个基准数据集的DiscoTope-2.0，DiscoTope-1.2，PEPITO和ElliPro的分析结果，表S5中使用了未用于培训的基准数据集的子集显示了SEPPA，Epitopia，EPCES和EPSVR不同的方法。这些结果证实了在基准PPV和灵敏度方面，与基准中包含的其他方法相比，DiscoTope-2.0方法具有更早的整体发现和一致的性能提升。

在评估数据集中，可以为33个同源组中的8个检测到有关“生物单位”和/或多个表位的其他结构信息。如上文针对训练数据集所述，包括有关用于预测的“生物学单位”的其他信息并重新定义基准设置以容纳多个表位，导致8个同源组的平均AUC从0.712到0.727 AUC的统计学显着改善（p ＝ 0.021）。同样，使用每种抗原的前30个最高得分预测的PPV和敏感性值分别从0.168增至0.188（PPV）和0.316至0.348（敏感性）。

因此，在评估集上确认了当包括用于预测的生物学单位和重新定义基准以容纳多个表位时，DiscoTope数据集在性能方面的总体发现。

当考虑“生物单位”进行预测并重新定义基准设置以容纳多个表位时，我们调查了在何种程度上观察到了PEPITO，ElliPro和SEPPA方法的类似性能改进。在这里，我们发现只有PEPITO方法可以提高性能，而SEPPA（将多链输入视为独立查询）的性能没有改变，ElliPro（将输入结构的整体形状用于估计残基突出）显示出下降预测效果（数据未显示）。

三、讨论区

在这里，我们介绍了用于预测不连续B细胞表位的DiscoTope方法的更新版本。更新内容包括对空间邻域的新颖定义，用于将倾向得分和半球暴露作为表面度量的总和。

使用原始DiscoTope论文中的基准数据集，我们证明了更新的方法具有显着提高的预测性能。为了定义可以区分表位和非/表位表面残基的分数，研究了几种定义表位对数倾向量表的方法。但是，具有最佳性能的标度是最初的DiscoTope定义，该定义是由表位残基中的氨基酸频率与非表位残基中的氨基酸频率定义的[12]。同样，研究了几种表面测量法预测表位残基的能力。在这里，上半球曝光方法与邻近总和的对数奇数得分相结合时，表现出最高的性能。

在DicoTope数据集[12]上，DiscoTope-2.0的交叉验证预测性能为0.748。尽管此值与随机值有显着差异，但性能仍远远不够完美。这种相对较低的预测性能存在许多原因。在这里，我们认为一个非常重要且经常被忽略的原因来自数据集的定义。 DiscoTope基准数据集由蛋白质数据库中发现的抗原：抗体复合物组成。每个表位从晶体结构定义为与抗体结构中一个或多个残基接触的抗原结构的残基。所有其他残基均标注为非表位。这个定义显然是非常简单的，并且在大多数情况下会导致注释不完整，因为除了给定表位的抗原表面的其他区域也可能结合抗体[13] [19]。基准定义的另一个关键方面在于定义用于计算预测得分的每个残基的邻域环境的数据。 DiscoTope方法通过表面暴露和对数倾向得分的组合来定义表位残留。给定残留物的表面暴露量的计算主要取决于进行计算所包括的结构单元。在DiscoTope数据集中，仅使用与抗体相互作用的链来定义抗原中残基的结构环境。然而，蛋白质通常是较大的复合物的一部分，其表现为一个生物单位，并且抗体通常针对整个“生物单位”而产生，而不仅是构成表位的单位的一部分。对于DiscoTope基准中包含的数据子集，我们可以在某种程度上处理这两个方面，并可以对基准数据进行更精确的定义，包括有关生物单位和/或多个已知表位的信息。这样，预测性能将提高到0.824。

使用独立的数据集，我们将更新的DiscoTope方法的性能与PEPITO，ElliPro，SEPPA，Epitopia，EPCES和EPSVR预测方法的性能进行了比较。在这里，我们发现DiscoTope和PEPITO达到了最高的预测性能。它们的性能显着高于ElliPro，Epitopia和EPSVR方法，但与SEPPA和EPCES方法没有统计学差异。但是，更重要的是，我们可以证明使用独立的评估数据集，其中包括有关用于预测的生物单位的信息，并重新定义基准以适应多个表位，这也导致DiscoTope方法的预测性能得到了提高。重新定义基准时，与训练数据相比，在评估数据集上的预测性能收益要小。主要原因之一是评估数据集中抗原的特征相对于训练数据集中“较旧”的抗原而言是不完整的。因此，对于评估数据集，每种抗原的抗体：抗原结构的最大数目为4，而在训练数据集中，此溶酶体抗原的数目最高为29。对于每种抗体而言，这种抗体：抗原复合物的数目低评估数据集中的蛋白质自然会转化为对预测性能的整体低估。

对PEPITO方法执行相同的基准重新定义会导致相似的改进的预测性能，而SEPPA的性能不变，而ElliPro的性能下降。重新定义基准对预测性能的影响的这种变化反映了不同方法的一般属性。 DiscoTope和PEPITO均使用根据给定残基的局部结构环境计算的局部暴露量来预测表位评分。包括有关抗原生物单位的信息会改变与生物单位中相邻链接触的残基的局部结构环境，因此仅会改变这些残基的预测得分。对于Ellipro，情况截然不同。 ElliPro通过将蛋白质形状近似为椭球并根据与椭球的局部偏差分配残基突出指数来定义全局范围内的突出。使用这种方法，生物单元的包含将改变椭圆形拟合，从而改变所有残基的整体评分方案，不仅是一次与生物单元中相邻链接触的残基。同样，SEPPA方法是否将多链输入视为独立查询，因此无法从此附加信息中受益。

DiscoTope-2.0方法似乎完全失败的示例是HIV-1 Gp120核心和A型流感血凝素（H3）（AUC <0.50）。这两种蛋白质都是分别位于甲型流感和HIV病毒外壳上的糖蛋白，并通过与宿主细胞表面蛋白结合来介导病毒DNA进入宿主细胞[28] [29]。糖基化模式不包括在分辨的抗原：抗体复合物中，因此选择用于复合物形成的抗体必须结合抗原的非糖基化位点才能形成复合物结构。这是因为糖基化的位点会在体内产生抗体反应的环境中被屏蔽。实际上，将潜在的糖基化位点（从Uniprot登录号P04578 www.uniprot.org 获得）映射到Gp120结构上，发现DiscoTope-2.0预测的唯一非糖基化位点是抗原性的，除了部分抗体结合该位点是通常埋在参与Gp41∶Gp120复合物形成的Gp120内域中的alpha-1螺旋（图5）[30]。潜在的糖基化位点（从Uniprot保藏号P03437 www.uniprot.org获得）在血凝素结构上的映射也排除了一些预计具有高度抗原性的位点。血凝素最突出的预测抗原位点是位于HA1亚基“头部”区域的活性位点。该位点在结构上已被识别为PDB条目3SM5、2VIR 1KEN和3LZF中的表位，并且与该表位结合的抗体对血凝素的亲和力高于DiscoTope数据集中包含的表位。但是，这些结构未包含在数据集中，因为这些结构未达到最大分辨率3Å（3SM5、2VIR，1KEN）的质量阈值，或者在准备DiscoTope数据集（3LZF）之后提交给PDB数据库。

因此，血凝素和Gp120的失败预测可以在某种程度上通过缺少生物学数据和不完整的基准注释来解释，并且在两种情况下都可以在很大程度上恢复性能，包括糖基化，生物学单位和其他表位的信息。

本文介绍的基准研究中包括的所有抗原结构均为结合结构。这可能会在一定程度上影响我们的发现，因为抗原结合形式的表位区域与抗体识别的天然形式略有不同。但是，这种微妙的结构变化的影响将主要影响依赖于特定结构特征进行预测的方法（如对接方法），与无边界结构相比，通常在边界上获得明显更高的预测性能。但是，先前的工作（数据未显示）表明，对于像PEPITO（BEpro），Epitopia和Discotope之类的方法，它们都依赖于更粗糙的结构特征，结合的和未结合的抗原结构在性能上没有区别。因此，我们也不希望这个问题对本文提出的结果产生重大影响。但是，应该注意的是，EPCES和EPSVR方法主要是利用未结合的抗原结构开发的，因此这两种方法的报道性能可能会被低估。

总之，我们已经描述了DiscoTope的改进版本，用于预测不连续的B细胞表位。此外，我们已经证明，有关B细胞表位的最新技术预测方法性能相对较差的部分原因，可以主要归因于所使用的基准数据集的质量。综上所述，我们认为这些观察结果首先强调了正确映射的结构性B细胞表位的精选基准数据集对于B细胞表位预测方法的开发和评估的重要性，其次，在给出此类适当的基准定义的情况下， B细胞表位的最新预测方法确实具有可靠且高度重要的预测性能。

四、材料和方法

4.1 资料准备 Data preparation

DiscoTope数据集用于方法开发，如先前所述[12]。简而言之;该数据集由分辨率<3 A的抗原-抗体复合物的75个X射线晶体结构组成，根据抗原序列分为25个同源性组（表S1）。此外，将25个同源性组分为五个数据集，用于交叉验证方案中的训练（4套）和评估（1套）。表位标注为抗原中任何残基，其原子与抗原中任何原子的距离都在4Å之内[12] [31]。表位注释可从 http://www.cbs.dtu.dk/suppl/immunology/DiscoTope 下载，蛋白质结构可从PDB数据库（ www.pdb.org ）下载。将PDB文件进一步处理为2个不同的文件：

仅包含与DiscoTope数据集中定义的与抗体相互作用的链的链；
PDB文件包含有关生物学相关单位的其他结构信息（如与结构）（对于PDB条目可获得）：1XIW，1TZH，1CZ8、1BJ1、1K4D，1K4C，1KYO，1EZV，1NCA，1NMC，1A14、1NCB，1NCC，1NCD，1OTS，1AR1、1NFD，2HMI，1EO8、1QFU ）。表S1中列出了有关此训练数据集以及划分为同源性组的详细信息。

根据IEDB数据库（ http://www.immuneepeepitope.org/browse_by_3D.php?name=BCELL ）中鉴定为抗原抗体复合物的584个PDB结构，构建了一个独立的评估数据集，其中包含与DiscoTope数据集中的蛋白质不同源的蛋白质。。结构文件（PDB文件）是从PDB数据库（ www.pdb.org ）下载的。基于分别与来自各种生物的抗体重链和轻链的两个数据库的同源性，自动识别抗体重链/轻链。未鉴定为轻链或重链的蛋白质链最初被标注为抗原。丢弃了不包含蛋白质抗原链的132个PDB条目和不具有轻链和重链的42个条目。包括5个包含连接轻链和重链的单链抗体的条目。使用以下标准从剩余的410种抗原-抗体复合物中检索出52种抗原：

通过X射线结晶解析的结构（405个条目），
抗原链大小> 150个残基（136个条目）
否序列相似性与DiscoTope数据集中的抗原重叠（爆炸E值<0.01）。

如PDB条目中所述，将52个PDB文件手动处理为包含一个生物单位（抗体和抗原）副本的文件。如上文针对DiscoTope数据集所述，注释52种抗原中的表位残基，并根据抗原序列的相似性将抗原分为33个同源性组。如果来自两个条目的任何两个抗原链的blast值<0.01，则认为两个条目相似。最后，将PDB文件处理为2个不同的文件，其中包括：1）与抗体相互作用的链，以及2）生物相关抗原单位（如果有）（可通过PDB输入获得：3BSZ，2ZJS，2XTJ，2FD6）。评估数据集的详细信息在表S4中提供，其数据可从 www.cbs.dtu.dk/suppl/immunology/DiscoTope-2.0 获得。

4.2 表位对数比的推导 Derivation of epitope log-odds ratios

如前所述计算对数比[12]。简而言之：

通过在一级序列上滑动一个窗口，将每个抗原蛋白序列分为一系列重叠的9-mer肽。
接下来，基于中心残基的注释将肽分类为表位和非表位基团。
然后，按照Nielsen等人[24]中所述的方法，使用序列聚类，序列加权和200的假计数权重，计算每组的氨基酸重量矩阵。
最后，从表位权重矩阵中的中心残基位置（位置5）相对于非表位矩阵中的相同位置以半位表示,计算了20个氨基酸中每个氨基酸的对数比
通过排除中心残基的相对表面可及性（RSA）低于预定义阈值的肽，以类似方式计算表面校正的对数奇数得分。 RSA阈值分别为0.01、0.05和0.10。

4.3 使用对数比进行表位预测–空间邻域的定义 Using log-odds ratios for epitope prediction – Definition of spatial neighborhood

为了预测表位残基，将对数比与得分函数结合使用，该函数对每个残基周围空间附近的氨基酸比率求和，从而得出给定蛋白质中每个残基的对数比得分。受Andersen等人[12]以及Sweredoski和Baldi [18]的启发，我们定义了一种得分函数，该函数降低了对数比值的权重作为距离的函数。 Sweredoski和Baldi [18]在工作中使用的函数使用5个距离阈值来逐渐降低对数奇数比的权重，根据经验将其设置为8、10、12、14和16。在这里，我们设计了一个具有单个距离阈值的更简单的函数，并且还包括了平滑窗口大小w。该参数是基于Andersen等人[12]基于序列的预测的优化（w = 9）设置的，并由Sweredoski和Baldi采用。接近和（PS）功能定义如下

其中r是为其计算对数比得分（PS）的查询残差，ri是距r的kps距离内的任何残基，ls（ri，w）是ri的对数比值，在a上按顺序取平均值 w残差的窗口，di是r和ri之间的距离。为了确保邻域中包含的对数奇数比影响最终得分，将最小权重设置为0.2，这在以前类似的评分函数中已得到成功证明[18]。应用二维网格搜索，以使用以下网格找到最佳的参数集：w = {1,3…11}，kps = {4,6…28Å}。将两个驻留之间的距离计算为Cα原子之间的距离。

4.4 使用表面度量进行表位预测 Using surface measures for epitope prediction

根据蛋白质结构计算出的5种不同表面测量值经过训练和测试，以预测其B细胞表位的能力。这些是残留物接触计数的变化：全球邻居计数（ Full sphere neighbor count，FS）[12]，上半球邻居计数（UHS）[22]和[22]（HSE）中所述且以前用于B的半球暴露[18]中的电池预测。如果Cα-Cα距离低于ksur，则将一个残基分类为查询残基的邻居。我们还通过定义邻居残基为在查询残基中任何原子的T距离内保持任何原子的残基，测试了广泛使用的相对表面可及性（RSA）[21]以及邻居计数与RSA（Ta）之间的混合。评分功能和参数列在表S3中。上半球和下半球的邻居计数是使用T. Hamelryck [32]开发的结构生物python模块计算的，而表面通达性是使用标准4Å探针通过DSSP计算的。然后通过将表面可及性除以从肽GGXGG计算得出的最大表面可及性获得RSA，其中X为所讨论的氨基酸。 FS，UHS，RSA和HSE的最佳球体半径ksur和Ta的距离阈值T是通过使用网格的网格搜索估算的； ksur = {4,6…28Å}和T = {4,6…28Å}。

4.5 结合对数奇数和表面度量

将对数比值得分与每个测试的表面量度组合在一起，得出总体预测得分。分数根据以下公式加权：

其中PS和SS分别是上述对数比值得分和表面得分。为优化表面测量的预测能力和对数比值得分而分别在5个训练集上找到的参数用作输入，并且使用网格通过网格搜索找到的α的最佳值：α= {0.005,0.010…1.0} 。由于RSA得分的数值远低于对数比比率得分，因此将RSA值乘以10以确保平滑的优化曲线。

4.6 性能指标

接收器工作曲线（AUC）[33]下的面积用作性能指标。 AUC得分是通过改变预测阈值并绘制真实阳性率与阴性阳性率而获得的曲线下面积。 AUC得分是按每个结构碱基计算的，以确保预测所有残基为表位或非表位残基均会导致AUC得分为0.5。如[12]中所述，将每个同源组的性能测量为该组中相互作用的抗原链的平均AUC得分，并将整体性能测量为25个同源组的平均AUC得分。所报告的表现均在评估集上（不用于培训）。

4.7 对数比值得分与表面得分之间的相关性

使用皮尔森相关系数（PCC）评估对数比值得分与表面得分之间的相关性。至于AUC评分，针对每种抗原计算PCC评分，将其在25个同源性组的每一个中取平均值，并且将总体相关性计算为同源性组的平均PCC。

4.8 在基准中包含多个表位

更改每种复合物的评估程序，以适应每个同源性组（蛋白质）中的多个表位。在每个同源性组内进行序列的多重比对，并通过排除在一个或多个其他复合物中被标记为表位的非表位注释的残基来计算每个复合物的新AUC评分。新过程仅影响包含多个表位（表S1和表S2）的数据集中同源组的性能。

4.9 PEPITO的预测

PEPITO是基于python中的[18]实现的。我们将该脚本的预测值与BePro服务器（h ttp://pepito.proteomics.ics.uci.edu/ ）的输出进行了比较，以了解几种不同的结构，并且在所有情况下均观察到了完美的相关性（r2 = 1.00）。

4.10 ElliPro的预测

评估数据集中的52种蛋白质已提交给ElliPro预测服务器（ tools.immuneepeeppepe.org/tools/ElliPro/iedb_input ）[19]。单击“单击此处查看残留分数”按钮可检索用于性能评估的残留分数。

4.11 筛选用于训练的条目的基准数据集

为了避免高估此处基准的不同预测工具的预测性能，将评估数据集中的抗原与用于训练方法的单个数据集进行爆炸，并删除E值和<0.01的抗原。请参阅补充材料表S4和表S5，以了解有关针对各个方法过滤的抗原的详细信息。 SEPPA训练集可从以下网址获得： http://lifecenter.sgst.cn/seppa/download.php？id = seppa ，埃塞俄比亚数据集可从 http://www.tau.ac.il/~talp/EpitopePrediction ，来自[27]的EPCES和来自 http://sysbio.unl.edu/services/EPSVR/training.tar.gz 的EPSVR数据。 PEPITO是使用DiscoTope数据集开发的，而ElliPro是 Thornton方法的网络服务器实现[23]，因此这两种方法尚未在评估数据集中的任何结构上进行训练。

4.12 SEPPA的预测 Prediction by SEPPA

抗原结构已提交至SEPPA预测服务器（ http://lifecenter.sgst.cn/seppa/index.php ）[26]，并下载了评分文件并用于评估。

4.13 埃塞俄比亚的预测 Prediction by Epitopia

抗原已提交至Epitopia服务器：http：//epitopia.tau.ac.il/index.html ，并检索到输出。性能是根据免疫力评分进行评估的，与埃皮托比亚也提供的概率评分相比，该评分结果略好（数据未显示）。

4.14 EPCES和EPSVR的预测 Prediction by EPCES and EPSVR

EPCES和EPSVR的预测由内布拉斯加大学植物科学创新中心生物科学学院助理教授张Chi提供。

4.15 效果的统计比较

在给定基准数据集中将不同同源性组配对的单尾t检验用于比较不同方法之间的性能。

4.16 定义独特的表位

使用[34]中描述的方法发现了独特的表位。简而言之：每个表位-对位界面都被翻译成400维“相互作用载体”。该载体保持表位和对位的相互作用氨基酸的频率，即，第一维被分配为与对位的丙氨酸接触的表位的丙氨酸频率，第二维被赋予丙氨酸-缬氨酸接触的频率等。具有小于0.8弧度(radians)的角度的表位被定义为相似的。

参考资料

PLoS Comput Biol. 2012 Dec; 8(12): e1002829. Reliable B Cell Epitope Predictions: Impacts of Method Development and Improved Benchmarking. 网址：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531324/

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn