【4.4.3.1】NetMHCIIpan

September 12, 2019 antibody 阅读量：次

CD4阳性T辅助细胞控制特定免疫的许多方面。这些细胞特异于衍生自蛋白质抗原的肽，并由极其多态性主要组织相容性复合物（MHC）II类系统的分子呈递。因此，鉴定与MHC II类分子结合的肽对于合理发现免疫表位是至关重要的。 HLA-DR是人类MHC II类的突出例子。在这里，我们提出了一种方法NetMHCIIpan，它允许肽特异性预测肽与已知序列的任何HLA-DR分子的结合。该方法源自大量汇编的定量HLA-DR结合事件，涵盖超过500种已知HLA-DR等位基因中的14种。考虑到肽和HLA序列信息，该方法可以推广和预测肽结合也用于没有实验数据的HLA-DR分子。该方法的验证包括鉴定内源性衍生的HLA II类配体，交叉验证，留下一分子输出和迄今未鉴定的HLA-DR分子的结合基序鉴定。验证表明该方法可以成功预测HLA-DR分子的结合 - 即使在没有特定分子的特定数据的情况下也是如此。此外，与目前唯一一种旨在提供广泛HLA-DR等位基因覆盖率的公开预测方法TEPITOPE相比，NetMHCIIpan对于TEPITOPE培训中包含的等位基因等效，同时在新等位基因上表现优于TEPITOPE。我们提出该方法可用于鉴定迄今未表征的那些等位基因，这些等位基因应在未来的方法更新中通过实验解决，以最有效地覆盖HLA-DR的多态性。因此，我们得出结论，所提出的方法满足了跟上MHC多态性发现率的挑战，并且它可以用于对MHC“空间”进行采样，从而实现高效的迭代过程以改进MHC II类结合预测。

作者总结（Author Summary）

CD4阳性T辅助细胞为刺激细胞和体液免疫反应提供必要的帮助。 T辅助细胞识别由主要组织相容性复合物（MHC）II类系统的分子呈递的肽。 HLA-DR是人MHC II类基因座的突出例子。 HLA分子是极其多态的，并且今天已知超过500种不同的HLA-DR蛋白质序列。每个HLA-DR分子可能结合一组独特的抗原肽，并且对每个分子的结合特异性的实验表征将是巨大且高成本的任务。仅通过实验表征了非常有限的一组MHC分子。我们之前已经证明，通过插入来自邻近分子的信息，可以得到MHC I类蛋白质的准确预测。采用类似的方法来推导泛特异性HLA-DR II类预测并不是直截了当的，因为HLA II类分子可以结合非常不同长度的肽。在这里，我们仍然表明这确实是可能的。我们开发了一种HLA-DR泛特异性方法，该方法允许预测与已知序列的任何HLA-DR分子的结合 - 即使在没有所讨论的特定分子的特定数据的情况下也是如此。

一、前言

主要组织相容性复合物（MHC）分子在决定许多宿主免疫应答的发作和结果的宿主 - 病原体相互作用中起重要作用。虽然衍生自外源细胞内蛋白质并且与MHC I类分子复合呈递的肽可以引发细胞毒性T淋巴细胞（CTL）的反应，但MHC II类分子呈递源自细胞外环境摄取的蛋白质的肽。它们通过辅助性T淋巴细胞的作用刺激对病原微生物的细胞和体液免疫。只有一小部分可能由病原生物蛋白质产生的肽实际产生免疫反应。为了使肽刺激辅助性T淋巴细胞反应，它必须结合内吞细胞器中的MHC II

MHC分子极其多态。已确定的人类MHC（HLA）分子的数量在I类中超过1500，在II类中超过数千[2]。这种高度的多态性构成了对T细胞表位发现的挑战，因为这些分子中的每一种都可能具有独特的结合特异性，因此对肽呈递给免疫系统具有独特的偏好。尽管许多等位基因在功能上非常相似（即具有与其他等位基因相似的结合口袋），但鉴定这种相似性通常非常困难，因为结合口袋氨基酸的细微差异可导致结合特异性的显着变化。

在过去的几十年中，T细胞表位的预测已达到准确度水平，这使得预测算法成为大多数主要大规模合理表位发现项目的不可分割的一部分[4-6]。定义T细胞表位的单个最具选择性的事件是肽片段与MHC复合物的结合[7,8]。然而，开发MHC /肽结合的准确预测算法的大多数努力都集中在MHC I类（综述参见[9]）。在这里，大规模表位发现项目将高通量免疫分析[10]与生物信息学相结合，已经实现了高度准确的预测算法，涵盖了大部分人类MHC I类等位基因多态性[3,11,12]。 MHC II类的情况是从覆盖单个或几个不同MHC分子的小数据集开发的[13-24]。在推导具有广泛等位基因覆盖的HLA II类预测算法方面已经做了非常有限的工作。据我们所知，只有三种这样的公开方法存在：Propred [25]，ARB [17]和NetMHCII [26]。 Propred是TEPITOPE方法的公开版本[27]，它是一种基于实验的虚拟矩阵预测方法，涵盖50种不同的HLA-DR等位基因，并依赖于肽结合特异性可以仅由MHC口袋氨基酸的比对确定的近似值。 NetMHCII和ARB是源自定量肽/ MHC结合数据的重量矩阵数据驱动方法，涵盖14个HLA-DR等位基因（以及一些小鼠MHC II类等位基因）。大多数其他HLA II类预测方法已在非常有限的数据集上进行训练和评估，仅涵盖单个或几个不同的HLA II类等位基因

我们先前已经表明，需要具有特征性结合亲和力的最少数量的100-200个肽来获得MHC II类等位基因的结合基序的准确描述[26]。因此，表征每个MHC分子的结合偏好将是一项巨大且非常昂贵的任务。在最近的一篇论文中，我们已经证明通过内插来自邻近的HLA I类分子的信息已经通过实验解决，可以得到已知序列的任何HLA I类和B类基因座蛋白的准确预测[3]。因此，尝试使用类似的方法来推导泛特定的HLA II类预测算法似乎是自然的。然而，由于两个主要原因，HLA II类的情况与HLA I类非常不同。

首先，定量结合数据仅适用于少数HLA II类等位基因（仅有14个HLA-DR等位基因的特征在于100多个定量绑定数据点，IEDB数据库2007年11月，[28]）。
其次，HLA II类结合沟在两端是开放的，允许延伸超出九聚体结合核心的肽的结合[29,30]。

因此，导出泛特异性结合预测算法的先决条件是肽结合核心与HLA结合裂缝的精确比对。这种比对是必要的，因为泛特异性结合预测的基础算法依赖于捕获肽和HLA序列之间关系的一般特征并根据结合亲和力解释这些的能力。只有当肽相对于HLA结合裂隙中的残基正确比对时才能捕获这种关系。我们最近发表了一种预测肽-MHC II类结合的方法[26]，该方法覆盖14个HLA-DR等位基因，这些等位基因在IEDB数据库中填充了大量定量肽数据。该方法提供了每种肽的预测结合亲和力值，以及肽结合核心的鉴定，并且基于这些预测，我们按照[3]中描述的策略开发了这种HLA-DR泛特异性方法。

在这项工作中，我们展示了如何利用泛特异性HLA-DR预测方法利用肽和原代HLA序列来准确预测已知蛋白质序列的所有HLA-DR分子的定量结合预测。特别地，该方法能够预测具有先前未表征的结合特异性的HLA-DR分子的特异性，从而证明该方法的真正泛特异性。方法和基准数据集可从 http://www.cbs.dtu.dk/services/NetMHCIIpan 获得。

二、结果

我们训练了泛特异性HLA-DR预测方法，如图1中示意性所示。肽序列和HLA一级序列信息均用作该方法的输入。使用稳定化的基质比对方法鉴定肽核心和肽侧翼残基（PFR）[26]。如图1B所示，就标准化的测量结合亲和力向该方法提供多个寄存肽（ register peptides）。通过包括肽和HLA一级序列，泛特异性方法能够预测肽与所有HLA-DR分子的结合，即使在没有表征其结合特异性的数据的情况下也是如此。

2.1 Leave-One-Out Validation

为了验证泛特异性方法，我们进行了留一分子外（LOO，leave-one- molecule out）实验，涵盖IEDB数据集中包括的所有14个HLA-DR等位基因。对于每个等位基因，如材料和方法中所述，使用来自IEDB数据集的所有肽数据训练人工神经网络（ANN）泛特异性预测因子，除了所讨论的HLA-DR分子的数据。接下来，获得所讨论的HLA-DR分子的肽结合亲和力值作为最佳九聚体肽核心的ANN预测得分。因此，该实验模拟了对迄今未表征的HLA-DR分子的结合的预测。根据AUC值[31]和Pearson相关性[32]测量每个HLA等位基因的预测性能。 Spearman等级相关[32]的值在表S1中给出。对于每个等位基因，我们比较了该方法涵盖的等位基因的LOO性能与TEPITOPE方法[27]的性能，以及通过HLA序列（邻居）之间的相似性鉴定的来自最密切相关的HLA分子的数据训练的常规单一等位基因预测因子（SMM-align [26]）。

表1中显示的结果清楚地证明了泛特异性（pan-specific）LOO方法的预测能力。 LOO方法实现了TEPITOPE涵盖的所有11个等位基因的最高预测性能，并且仅对于两个等位基因（DRB1 * 1302和DRB4 * 0101）是单等位基因邻居方法（SMM-align）的表现优于泛特定的LOO方法。这些差异具有统计学意义（p，0.001和p = 0.001，分别为二项式检验）。

泛特异性方法的预测性能依赖于从HLA特异性空间中的“邻近”等位基因内插信息，并根据结合亲和力解释该信息的能力。因此，期望泛特异性方法在密切相关的HLA分子包括在该方法的训练中的情况下应该表现最佳。表1和图2中的数据说明情况确实如此。 Except for the two outliers DRB11302, and DRB10701 the plot shows the clear relation that alleles with close nearest neighbors tend to be predicted with a higher accuracy compared to alleles with large distances to their nearest neighbor.

2.2 Cross-Validation

接下来，最终的NetMHCIIpan方法在完整的数据集上以五重交叉验证的方式进行了训练，放弃了留一法（参见材料和方法）。我们比较了NetMHCIIpan方法与传统单等位基因预测方法（SMM-align）和TEPITOPE方法在AUC值和Pearson相关系数方面的表现（后者仅包括在NetMHCIIpan和SMM-中比对方法，因为TEPITOPE方法不提供与肽结合亲和力线性相关的输出值。该基准计算的摘要如图3所示（详见表S2）。

结果显示泛特异性方法如何能够整合来自邻近HLA-DR分子的信息，从而提高预测性能，超过常规单等位基因方法，如SMM-align和TEPI-TOPE。对于基准测试中包含的所有14个等位基因，泛特异性方法优于其他两种方法（p，0.001，二项式测试）。

2.3 Validation Using a Hitherto Uncharacterized HLA-DR Molecule 使用迄今为止无特征的HLA-DR分子进行验证

用于HLA-DR肽结合预测的泛特异性方法的最终验证将是鉴定哪种肽将结合迄今未表征的HLA-DR分子。因此，我们进行了这样的实验，其中在体外结合测定中测试了一组256个15mer肽以结合HLA-DRB1 * 0813分子（在材料和方法中描述）。在20种最高评分肽中，75％显示结合的KD值低于1000nM，50％显示结合强于50nM。该实验的性能总结显示在表2中。该实验证明了泛特异性预测方法即使在没有特定查询HLA-DR分子的任何数据的情况下，也鉴定肽结合基序的怎么样。

2.4 Identifying Endogenously Presented Peptides 鉴定内源性呈递的肽

使用来自SYFPEITHI数据库[29]的大量数据进一步验证了NetMHCIIpan方法，这些数据未包含在NetMHCIIpan方法的训练数据中。该组由限制于28种不同HLA-DR等位基因的584个HLA配体组成。对于每种肽，源蛋白都在SwissProt数据库中找到[33]。如果可能有多种来源的蛋白质，则选择最长的蛋白质。将源蛋白分成HLA配体长度的重叠肽序列。除注释的HLA配体外的所有肽均作为阴性肽。我们意识到这是一个强有力的假设，因为可以在HLA分子上呈现的次优肽被计为阴性。对于每种蛋白质-HLA配体对，将预测性能估计为AUC值。该基准计算的摘要如图4所示（详见表S3）。

NetMHCIIpan和TEPITOPE方法对两种方法涵盖的17个等位基因的子集具有相似的预测性能。 TEPITOPE方法对10个等位基因具有最高性能，而NetMHCIIpan对7个等位基因具有最高性能（这种差异不显着p.0.3，二项式检验）。对于TEPITOPE方法未涵盖的11个等位基因，NetMHCIIpan在9个等位基因中达到最高性能，而TEPITOPE方法在2个等位基因中表现最高。对于这些等位基因，NetMHCIIpan因此表现明显优于TEPITOPE方法（p，0.01，Binominal test）。最后，对于SMM-align方法未涵盖的14个等位基因，因此未包括在泛特异性方法的培训中，NetMHCIIpan实现了比TEPITOPE方法更高的性能。但是，这种差异并不显着。此外，在该实验中，与DRB1 * 13等位基因上的TEPITOPE方法相比，NetMHCIIpan方法表现特别差。使用通过省略DRB1 * 1302等位基因的结合数据而训练的网络集合，DRB1 * 1302等位基因的平均预测性能从0.567提高到0.747（数据未显示）。该结果证实了我们早先的观察结果，即NetMHCIIpan方法训练中包含的DRB1 * 1302等位基因数据形成具有异常结合特异性特征的异常组。

2.5 肽结合核的鉴定

Identification of Peptide Binding Core

为了验证NetMHCIIpan方法正确鉴定与MHC II类分子结合的肽的结合核心的能力，我们从PDB数据库[34]compiled了一组15种肽，这些肽已经与HLA-DR等位基因复合结晶。对于这些肽，我们可以通过手动提取哪个肽残基结合在P1袋中来鉴定确切的肽结合，并随后测试该核心是否可以通过预测方法鉴定。如表3所示，TEPITOPE和NetMHCIIpan方法都能够鉴定15种肽的结合核心。 TEPITOPE正确识别所有15个结合核心，而NetMHCIIpan使一个肽与一个氨基酸残基错位。

2.6 HLA-DR Allelic Specificity Clustering HLA-DR等位特异性聚类

先前已经表明，HLA-A和HLA-B I类分子可以聚集成有限数量的组，也称为共有共同结合特异性特征的超类型。还提出了类似的HLA-DR等位基因聚类[35]。为了验证和扩展该聚类，使用NetMHCIIpan方法根据预测的肽结合特异性聚类HLA-DR分子。如材料和方法中所述计算修剪的HLA距离树。图5描绘了包括76个目前已知的HLA-DR分子代表的树。

HLA-DR特异性树的总体结构与先前提出的包含12种主要超类型的聚类[35]一致。然而，观察不同超型簇之间的高度血清型混合是惊人的。几乎所有提出的超型都含有来自一种以上血清型的HLA-DR分子。在基于TEPITOPE结合基质[35]定义HLA-DR特异性簇时，已经观察到这种情况，但未达到此处提供的分析所建议的程度。

三、讨论

MHC分子是极其多态的，导致在人群中表达许多不同的肽结合特异性。已经描述了超过500种不同的HLA-DR分子和超过2000种不同的HLA-DQ和HLA-DP分子[2]。公开可用的唯一部分泛特定的HLA-DR预测算法是TEPITOPE方法[27]。该方法描述了肽与50种HLA-DR分子的结合。然而，如该工作所示，TEPITOPE方法使大部分HLA-DR等位基因多态性未被描述。

在目前的工作中，我们开发了一种HLA-DR泛特异性方法NetMHCIIpan，能够提供与已知蛋白质序列的所有HLA-DR分子的肽结合的定量预测。该方法基于人工神经网络，并且在定量肽HLA-DR结合数据上进行训练，所述数据包括肽结合核心，肽侧翼残基和估计在结合肽的相互作用距离内的HLA-DR残基。该方法的天然强度是预测肽与任何HLA-DR分子结合的能力，因此是真正的HLA-DR泛特异性。此外，由于该方法是基于人工神经网络的，因此它可以捕获限定肽内和肽与HLA分子之间的结合特异性的非线性关系。这与TEPITOPE方法的基本方法有根本的不同，后者依赖于肽结合特异性可以确定为独立HLA口袋偏好的总和的近似值。该方法在预测肽结合至迄今未表征的HLA-DR分子，大规模留一法实验（large-scale leave-one-out experiments），交叉验证和内源呈递肽的鉴定以及实验验证的结合核心方面得到验证。在所有验证实验中，NetMHCIIpan方法显示出比TEPITOPE更好或相当，TEPITOPE是唯一可公开获得的其他部分HLA-DR泛特异性结合预测方法。

HLA-DR泛特异性预测算法的强大应用是搜索将与大多数HLA-DR等位基因结合的高度混杂的肽序列。这些肽在合成和重组疫苗的开发中具有高价值，因为它们将独立于MHC II类遗传背景在大多数人中普遍结合，因此可能提供通用辅助T细胞活化。举例来说，我们应用泛特异性方法鉴定肽，预测其结合一组流行的HLA-DR等位基因。如Middleton等人报道的，在种族群体中选择普通等位基因作为HLA-DR等位基因，其最大等位基因频率高于1％。 [36]。在这样做时，我们可以鉴定预测与所有流行的HLA-DR分子混杂结合的肽。早期已经做出努力来鉴定这种高度混杂的肽。 PADRE序列[37]是此类肽的最突出的例子之一。使用泛特异性方法，预测PADRE序列与少于40％的流行HLA-DR分子结合。此处显示的分析表明，使用提议的泛特定方法，对真正泛混杂的HLA-DR进行详尽搜索确实是可行的。

泛特异性方法依赖于神经网络捕获肽和HLA序列之间关系的一般特征，并根据结合亲和力解释这些特征的能力。对于提供可靠预测的这种方法，必须通过泛特异性方法描述的HLA分子的多态性在某种程度上被包括在该方法的训练中的数据所覆盖。对于NetMHCIIpan预测方法，我们已经包括仅涵盖500多种已知HLA-DR分子中的14种的结合数据[2]，因此很可能使HLA特异性空间的大区域未被覆盖。在图5中显示的特异性聚类的基础上，我们可以鉴定具有未表征的结合特异性的HLA-DR等位基因，因为这些等位基因远离泛特异性方法的训练中包括的等位基因。这种新型HLA-DR分子包括DRB1 * 14分子，即DRB1 * 1407（12.5％）和一些DRB1 * 11，如DRB1 * 1103（5％），以及DRB1 * 12等位基因如DRB1 * 1202 （35％）靠近树的中心。如Middleton等人报道的，每个等位基因后括号中的数字是种族群体中的最大等位基因频率。

我们之前已经展示了如何将生物信息学和免疫测定结合起来，以识别和实验测定具有无特征结合亲和力的肽的整合方法如何提高肽/ MHC I类预测算法的预测准确性[38]。使用泛特异性方法鉴定具有无特征结合特异性的HLA II类分子，我们建议将该搜索策略扩展到MHC多态性的维度。图6显示了整合生物信息学和高通量免疫测定的该搜索策略的示意图。

在这里，我们举例说明了一个迭代循环，该循环识别具有预测的结合特异性的新MHC分子，其与泛特异性方法的训练中包括的特异性不同。接下来，应开发免疫测定法，通过鉴定具有未表征的结合亲和力的肽来描述这些分子的结合特异性，并通过实验测定这些肽。这种方法应该允许快速和有效地采样MHC多态性和肽结合的多样性。

NetMHCIIpan的当前版本和此工作中使用的基准数据可从 http://www.cbs.dtu.dk/services/NetMHCIIpan 获得。该服务涵盖了已知蛋白质序列的所有HLA-DR等位基因。随着更多数据可用，该方法将更新。在未来，我们希望扩展该方法以涵盖HLA-DQ和HLA-DP分子。

四、材料和方法

4.1 数据

定量HLA-DR限制性肽结合数据来自IEDB数据库[28]和内部未发表数据集[Bjorn Peters，私人交流]。对于泛特异性方法的外部评估，我们在SYFPEITHI数据库中包括了一组HLA-DR II类配体[29]。仅使用未包括在定量HLA-DR限制性肽结合数据集中的配体。 SYFPEITHI数据集由限制为28个HLA-DR等位基因的584个MHC配体组成。有关数据集的详细信息，请参见表S4和S5（完整的数据集可在http://www.cbs.dtu.dk/suppl/immunology/NetMHCIIpan.php获得）。

4.2 方法

如图1所示构建泛特异性HLA-DR方法。使用SMM-比对方法鉴定IEDB数据集中每种肽的肽九聚体核心和肽侧翼残基（peptide flanking residues，PFR）[26]。。 SMM-比对方法鉴定每个肽序列的最大评分九聚体肽核心。因此，该方法将遗漏关于预测不结合或与较弱亲和力结合的次优九聚体序列的信息。为了包括关于这些次优的九聚体肽的结合亲和力的信息，我们将归一化的结合评分Snorm分配给次优的九聚体肽，其给出肽的SMM-比对评分与最佳肽的SMM-比对评分的比率。用对数转化的肽的实验IC50结合值。

这是Snorm =（S / SM）M，其中S是（次优）肽的SMM-比对得分，SM是最佳肽的SMM-比对得分，M是对数值对数转换为1-log_50k（aff），其中aff是全长肽的实验IC50结合值，log50k是基数50000的对数。

在SMM-比对方法将最大得分的九聚体肽分配对数转换结合值为0的情况下，将对数转化的实验IC50结合值随机分配给一个次优肽，并且给予所有其他九聚体肽的结合值。在使用亚最佳九聚体肽进行这种扩增时，IEDB数据集的大小从14,607扩大到超过100,000个数据点。这种数据增加5倍以上，可以在所有基准计算中对预测方法的准确性进行一致的改进（数据未显示）。

对于每个肽核心，PFR被鉴定为肽核心侧翼的氨基酸，在任一端最多为3个。

4.3 HLA伪序列 HLA Pseudo-Sequence

HLA序列根据与肽接触的氨基酸残基组成的假序列编码。接触残基定义为在任何代表性的HLA II类结构中的肽的4.0Å内。仅包括任何已知HLA-DR，DQ和DP蛋白质序列中的多态性残基，产生由21个氨基酸残基组成的假序列。表S6中详细描述了HLA II类伪序列。

4.4 神经网络训练

如Nielsen等人所述，训练人工神经网络（ANN）以定量预测肽-HLA结合。输入序列以三种不同的方式呈现给神经网络：

常规稀疏编码（即，由19个零和1编码），
Blosum编码，其中每个氨基酸由BLOSUM50矩阵评分向量编码[39]，
两者的混合物，其中肽被稀疏编码并且HLA假序列是Blosum编码的。

具体：

PFRs计算为最大长度为3个氨基酸的平均BLOSUM62评分[26]。 PFR长度编码为L_PFR /3，1 - L_PFR/3，其中LPFR是PFR的长度（在0和3之间）。
肽长度编码为L_PEP，1-L_PEP，其中L_PEP = 1 /（1 + exp（（L-15）/ 2））和L是肽长度。

因此，对于每个数据点，神经网络的输入由肽序列（920 = 180个输入），PFR（220 = 40个输入 3个残基，怎么就变成2个残基了），HLA假序列（2120 = 420个输入），肽长度（2个输入）组成。），以及C和N端子PFR的长度（22 = 4个输入），导致总共646个输入值。

为了估计该方法的预测性能，如Nielsen等人所述进行留一法（LOO）实验。[3]。对于每个HLA-DR分子，使用所有可用数据训练神经网络集合，排除所讨论的HLA-DR等位基因的所有特异性数据。使用具有22,44,56和66的隐藏神经元的网络架构。使用上述三种编码方案以五重交叉验证的方式执行网络训练，从而产生60个神经网络的集合（3个编码方案，4个架构和5个折叠）。然后将预测的对肽的亲和力确定为最大评分九聚体肽核心（包括PFR）的预测值，其中每个九聚体肽核心被评分为神经网络整体中60个预测的平均值。

对于最终的NetMHCIIpan方法，进行了传统的五重交叉验证培训。将独特肽库随机分成五组，将给定肽的所有HLA结合数据置于同一组中（以这种方式，没有肽可以属于多于一组）。

4.5 最近邻距离 Nearest Neighbor Distance

使用关系

d = 1 -s(A，B)/( s(A，A) s(B，B))^1/2

从HLA假序列的比对得分估计两个HLA等位基因之间的最近邻居距离，其中 s（A，B）分别是伪序列A和B之间的BLOSUM50比对得分[39]。

4.6 HAL距离树

如Nielsen等人所述，HLA距离树来自预测的结合亲和力之间的相关性。[3]。为了可视化HLA距离树，仅显示树中叶子的子集。该子集以类似Hobohm 1-like选择，其中等位基因聚集在0.95距离水平，并且每个聚类仅选择一个等位基因用于展示[40]。

4.7 体外结合分析

如前所述，将HLA DRA1 * 0101和HLA DRB1 * 0813的细胞外部分与Fos Jun亮氨酸拉链二聚化基序融合[41]。使用标准IPTG诱导将两条链分别表达为大肠杆菌（BL21）中的包涵体。从包涵体中提取两条链，并在变性条件下通过阴离子交换和凝胶过滤色谱法纯化。将等摩尔浓度的α和β链稀释到含有滴定肽（0-15mM）的重折叠缓冲液中。在18℃温育48小时后，使用HLA-DR特异性单克隆抗体L243通过定量ELISA测定形成的复合物的浓度。使用非线性回归将数据拟合至饱和曲线并确定Kd值。

问题：

神经网络输入向量中，为啥PFR（2*20 = 40个输入）？

参考资料

Nielsen, M., Lundegaard, C., Blicher, T., Peters, B., Sette, A., Justesen, S., … Lund, O. (2008). Quantitative predictions of peptide binding to any HLA-DR molecule of known sequence: NetMHCIIpan. PLoS Computational Biology, 4(7), 1–10. https://doi.org/10.1371/journal.pcbi.1000107

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn