【4.4.3.4】NetMHCstab

为了实现抗原呈递功能,MHC-I分子不仅必须结合细胞内产生的肽,而且还必须将它们保留在细胞表面,同时等待适当的一个或多个CTL克隆的极其稀有的循环成员的到来。特异性。因此,除了亲和力之外,决定肽免疫原性的一个因素是肽-MHC-I 相互作用的稳定性,因为稳定性低的复合物会在遇到适当的 CTL 克隆之前解离。 Hence, a large proportion of peptides hitherto classified as being non-immunogenic because of ‘holes in the T-cell repertoire’ were explained in terms of unstable pMHC-I interactions

使用高通量闪烁邻近测定法(high- throughput scintillation proximity assay measuring)测量 pMHC-I 复合物的半衰期,我们针对 10 种常见的 HLA-I 分子生成了一大组单独的 pMHC-I 稳定性测量值,涵盖 12 种常见人类 MHC-I 超型中的 8 种。基于此类稳定性测量,生成了计算机模拟方法来预测 10 个 HLA 分子的肽-MHC-I 相互作用的半衰期,并且预测模型用于量化免疫原性肽是否具有稳定性特征与非免疫原性结合剂不同

一、方法

在典型的五重交叉验证方案中,用于训练人工神经网络的数据被分为五组,其中五分之四的数据用于训练,最后五分之一用于测试和早期停止。重复五次,以便交替使用所有测试集(五个之一)进行评估。这样,测试集将独立于训练集,从而最大限度地减少过度拟合数据的风险。网络按照 Nielsen等人的描述进行训练。使用归一化因子为 5 的 Blosum50 编码或使用 20 个输入之一为 0·95 且其余 19 个为 0·05 的稀疏编码。

测量的半衰期值从小时转换为 0 到 1 范围内的值。使用的转换为s = 2^(−2/ Th),其中s是转换后的值,Th是在小时。这种关系适用于除 HLA-B40:01 之外的所有分子,HLA-B40:01 具有“不寻常”的不稳定 pMHC-I 复合物。这里,使用关系式s B40:01 = 2^(-0·7/ Th) 。使用此转化方案,0·5 的转化值对应于 2 小时的半衰期,HLA-B*40:01 除外,其中 0·5 对应于 0·7 小时。

该数据集总共包含 5509 个 9 聚体(肽),涵盖 10 个等位基因,半衰期以小时为单位。表1总结了所涵盖的等位基因 。

T 细胞表位和 HLA 配体从 SYFPEITHI 数据库和免疫表位数据库 (IEDB)下载

二、结果

图 1显示了根据预测半衰期和测量半衰期之间的皮尔逊相关系数测量的不同网络集成性能的条形图。。网络性能范围从 0·583 (HLA-B07:02) 到 0·815 (HLA-A11:01)。当集成中包含更多网络时,所有网络集成的性能都会得到提高。因此,对于用于训练的所有数据集,性能顺序为:Blosum[10] < Blosum[2,5,10] < Sparse+Blosum。

在这里,对于 T 细胞表位和配体,使用组合模型与单独使用NetMHCcons相比,性能提升非常显着(两种情况下P < 0·0001)。此外,当根据 AUC 进行评估时,组合模型的表现优于两个单独模型

对于 HLA-A*02:01,我们可以证明稳定结合物与不稳定结合物的区别在于 P2 锚点处的基序,其中与不稳定结合物的基序相比,稳定结合物具有非常保守的基序

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn