【7.4】治疗性结构抗体数据库(Thera-SAbDab)

抽象:

治疗性结构抗体数据库(Thera-SAbDab; http://opig.stats.ox.ac.uk/webapps/therasabdab )跟踪世界卫生组织(WHO)认可的所有抗体和纳米抗体相关治疗剂,并识别任何结构抗体数据库(SAbDab)中的对应结构具有几乎完全相同或完全相同的可变域序列匹配。 Thera-SAbDab与SAbDab同步,每周更新一次,反映出新的蛋白质数据库条目和WHO出版的新序列数据的可用性。每个治疗摘要页面都会列出结构覆盖范围(带有指向相应SAbDab条目的链接),比对,显示任何接近匹配的序列发生偏离的位置,以及随附的元数据,例如预期的目标和研究条件。可以通过治疗名称,元数据组合或可变域序列查询Thera-SAbDab-在查询的指定区域内返回指定序列同一性内的所有治疗方法。 Thera-SAbDab中列出的所有治疗药物的序列(截至2019年8月5日为461个独特分子)可作为单个文件下载,并附带元数据。

一、前言

从B细胞基因衍生的免疫疗法在全球药物市场中的成功率和重要性都越来越高,旨在治疗各种疾病(1-3)。

整个单克隆抗体(mAb)疗法在整个行业中占主导地位-通过包含两个具有特定特异性的相同可变域结构来模拟天然抗体的药物(3)。较广泛的单克隆疗法类别还包括片段抗原结合(Fab)区(完整抗体的单臂),单链Fv(scFv)区(通过工程化的富含甘氨酸的接头连接的重链和轻链可变域)和单域变量片段。这些片段可以二聚体形式表达以提高亲合力,或与聚乙二醇(“聚乙二醇化”)偶联以减慢清除速度(4),与放射性同位素用于诊断目的(5)或与放射性同位素或有毒的小分子/肽偶联的细胞毒性(6)。

蛋白质工程学的最新发展已导致双特异性免疫疗法,其中将两个不同的可变域结合位点整合到单个蛋白质中。截至2019年6月,双特异性mAb,连接的Fab,连接的scFv和连接的单结构域可变片段均已在临床试验中进行评估(7)。

免疫疗法的主要信息来源是世界卫生组织(WHO),该组织每半年发布一次“Proposed”(8)和“Recommended”(9)国际非专利名称(INN)列表。这些国际非专利名称是全球公认的通用名称,可用来识别药物。要获得国际非专利名称,申请者必须包括完整的氨基酸序列,最接近的V和J基因,IG亚类和轻链类型(请参阅 https://extranet.who.int/tools/inn_online_application/ )。这些信息加上1.2万美元的申请费用(截至2019年8月)使INN列出了公司打算继续进行临床试验的有用疗法来源。

一些数据库已经收集了该信息。 IMGT单克隆抗体数据库(IMGT mAb-DB; http://www.imgt.org/mAb-DB (10))和WHOINNIG( http://www.bioinf.org.uk/abs/abybank/whoinnig )。

治疗性抗体数据库(TABS; https://tabs.craic.com/ )是针对抗体的商业抗体,也获得了治疗专利。其他不包含抗体的数据库也可以捕获WHO信息,例如ChEMBL( https://www.ebi.ac.uk/chembl )、DrugBank( https://www.drugbank.ca )和KEGG DRUG( https://www.genome.jp/kegg/drug)。

大多数数据库会为其治疗条目提供其他元数据,例如临床试验状态,参与开发的公司,目标特定城市和替代名称。例如,最近发布的ABCD数据库提供了抗体同义词,抗原UniProt链接和出版物参考文献(11)。但是,尽管这些存储库提供了序列信息(在单独的摘要页面上或通过参考主要文献提供),但目前无法按序列查询它们,也无法批量下载相关的治疗序列集以直接获取。生物信息学分析。

有关预期靶标和治疗性先导化合物的结构知识对于合理的药物发现非常重要(12,13)。例如,共晶复合物揭示了药物与靶标结合的位置(表面“表位”),而单独溶解的结构可实现更精确的对接实验。它也可以帮助后续的开发和优化,因为从已知结构衍生的突变体的同源性模型通常比没有紧密结构伴侣的同源性模型更准确(14)。蛋白质数据库(15)(PDB)现在包含超过15万个可解析的结构,尽管它偏向某些蛋白质类别,但仍代表了许多具有药理意义的靶标。这些结构的一部分包含抗体可变域,并由结构抗体数据库记录(SAbDab(16);截至2019年8月5日,在3663个PDB条目中有7184个可变域结构)。 IMGT mAb-DB和TABS均报道了PDB中的一组已知治疗结构,但其报道的治疗空间结构覆盖率较低。例如,两个数据库都没有报告双特异性免疫疗法的任何已知结构信息。

为了解决这些问题,我们创建了治疗性结构抗体数据库(Thera-SAbDab; http://opig.stats.ox.ac.uk/webapps/therasabdab )。 我们利用WHO释放的序列进行处理,并使用ANARCI对其进行编号(17),并每周对所有治疗性可变域序列与SAbDab中已知结构的序列进行序列比对。 记录并分类具有100%,99%和95-98%的序列同一性匹配的结构,并在每个治疗概要页面上进行比对,以准确显示每个近乎相同的结构与治疗序列不同的位置。

可以通过INN,元数据的组合(例如INN申请年份,临床试验状态或目标)或序列(包括序列的指定区域)来查询Thera-SAbDab。 我们提供了Thera-SAbDab中包含的所有治疗序列以及元数据,以促进进一步的研究。

二、数据源

2.1 序列数据

由WHO提出的拟议的INN清单(8,9)是Thera-SAbDab中大多数序列信息的来源。它们每半年发布一次(一次在1月/ 2月,另一次在6月/7月),并且-自从2006年发布P95以来-代表了所有被提议的INN抗体和纳米抗体相关疗法的可变域序列的可靠记录。在2006年之前提出的129种与抗体相关的疗法中,我们能够通过IMGT mAb-DB( http://www.imgt.org/mAb-DB/ )找出47种(36.4%)的序列信息。尽管我们继续进行搜索,并且像Abvance这样的学术界和工业界的联合倡议鼓励将它们发布( https://www.pistoiaalliance.org/projects/abvance/ ),但其余82个序列可能永远不会成为公众知识( public knowledge)。

然后,所有序列都由ANARCI(17)进行编号,后者使用隐马尔可夫模型将输入序列与预先编号的种系序列进行比对。分配编号可使用户更轻松地解释接近完全相同的序列匹配中突变的重要性。例如,如果错配发生在构架区的末端,则可以判断为对结合位点结构的影响最小。

2.2 结构数据

Thera-SAbDab将所有编号的治疗序列与SAbDab中的结构进行了比较(16),它会针对所有序列与B细胞种系基因对齐的结构预先过滤PDB。 由于所有SAbDab结构也都已预先编号,因此将治疗剂与公共结构空间进行比较是有效的。 可从Thera-SAbDab搜索结果轻松访问SAbDab的所有现有功能(例如,交互式分子查看器和编号的结构下载)。

2.3 治疗元数据 Therapeutic metadata

治疗元数据包括固有特征和不断变化的状态更新的混合。 某些静态属性可以自动获取。例如,轻链类型是通过我们的AN-ARCI种系比对确定的(17),而同种型(isotype),INN提议和建议的年份以及预期目标可以直接从INN列表中获得。序列比较也可用于识别不同的INN名称在何处指代相同的可变域。其他特征,例如哪些公司参与治疗性开发,必须在移交时手动策划。

新条目的时间相关特征也需要在序列识别后手动确定,之后每3个月进行一次。我们从各种来源(包括AdisInsight( https://adisinsight.springer.com ),ClinicalTrials.gov( https://clinicaltrials.gov )和DrugBank( https://www.drugbank.ca )。这些网站会定期更新,因此,此时间敏感元数据的首选来源也是如此;我们将这些领域包括在Thera-SAbDab中,以便进行更多与药理学相关的搜索,并确定所有I期后候选药物以纳入我们最新的可开发性指南(18)。

三、内容

截至2019年8月5日,Thera-SAbDab追踪558种INN,代表543种独特的疗法。 在558个INN名称中,有473个可以映射到可变域序列(占87.1%),代表具有序列数据的461种独特疗法。 436种是单克隆疗法(三对具有相同的可变域:avelumab和Bintrafusp,losatuxizumab和serclutamab以及radretumab和bi kafusp),其中25种是双特异性疗法。 从WHO的“提议的INN”清单中逐年绘制这些独特疗法的累计总和,显示出自2000年代初以来呈指数级增长(图1)。

我们在IMGT mAb-DB(10)和TABS数据库(2019年6月28日)中搜索了这461种治疗药物的结构。 IMGT mAb-DB在36种不同的单克隆疗法中鉴定了72种治疗可变结构域的结构,而TABS在32种不同的单克隆疗法中鉴定了53种治疗可变结构域的结构。相比之下,Thera-SAbDab(在100%序列相同的阈值下)包含152种治疗性可变域结构,涵盖84种不同的单克隆治疗药物和7种不同的双特异性治疗药物。另外21种单克隆疗法的最大序列同一性匹配度为99%(距一个公开结构最多2个突变),而13种单克隆疗法和4种双特异性疗法的最大序列同一性匹配度为95-98%。我们得出的结论是,目前,约有四分之一(27.1%)的WHO认可的单克隆疗法具有完全或接近的(≥95%序列同一性)结构覆盖率。 44.0%的双特异性疗法具有至少一个具有精确或紧密结构覆盖的可变域,而两个具有两个可变域的精确匹配。

Thera-SAbDab甚至包含格式最多样化的治疗剂的结构信息。 Ozoralizumab是类风湿关节炎的一项有效的III期临床试验中的双特异性疗法,具有VH(TNFA)–VH(ALB)–VH(TNFA)配置,其中VH(TNFA)是旨在与TNF结合的重链-,而VH(ALB)是设计用来结合ALB的另一条重链。 Thera-SAbDab已经确定了TNFA结合域的结构,其序列同一性为95.65%[5m2j;链D]。序列比对的检查表明5m2j具有100%的Chothia定义的CDRH3序列与VH(TNFA)匹配,并且实际上在所有Chothia定义的(19)CDR中只有一个突变:VH中的31D( TNFA)在5m2j中为31N。 5m2j是一种VHH2骆驼纳米体,这表明随着越来越多的单链疗法进入临床,Thera-SAbDab将越来越突出SAbDab对纳米体结构空间的覆盖。

与治疗相关的结构一直在PDB中不断沉积,甚至在最初开发多年之后也是如此。例如,自2009年以来,WHO已记录了9种针对IL17A的抗体相关疗法–-7种单克隆抗体和2种双特异性抗体。第一种是secukinumab,于2009年获得认可,自2014年以来已被批准用于某些类型的关节炎,牛皮癣和脊柱炎。截至2019年6月上旬,这些IL17A粘合剂均没有紧密的结构。但是,2019年6月19日,礼来公司为ixek-izumab(靶向IL17A的单克隆抗体6nov)和tibulizumab(与IL17A结合且与TNFSF13B结合的双特异性抗体,6nou)保留了一个精确的可变结构域结构。SAbDab在每周更新中对其进行检测和编号,从而使Thera-SAbDab成为第一抗体库,可链接至与IL17A结合的治疗性抗体的结构。

四、用法

有多种搜索Thera-SAbDab的方法。如果需要有关特定治疗剂的结构信息,则可以由INN直接查询Thera-SAbDab。或者,可以指定元数据的组合来确定治疗空间的特定子集的结构,例如,特定抗原的结合物,或在临床试验的特定阶段的治疗剂(图2A)。结果以表格格式返回,并链接到每个治疗摘要页面和选定的元数据数组(图2B)。

每个治疗摘要页面列出一个结构摘要(包括我们的数据库序列),并链接到相关SAbDab条目(带有PDB代码和链)和比对图表(如果检测到序列同一性为95–99%的结构) )。每个SAbDab链接都将用户重定向到相关PDB条目的SAbDab摘要页面,可在其中访问所有现有功能。还提供了指向适当的SAbPred(21)信息学工具(例如用于可变域结构建模的ABody-Builder(22)和用于可开发性评估的TAP(18))的链接。最后,我们列出了我们为治疗药物记录的所有剩余元数据,从研究状况的记录,公司正在开发治疗药物的状态到估计的开发状态。

搜索Thera-SAbDab的第三种方法是按顺序搜索(图2C和D)。 这可以通过多种方式加以利用。 例如,通过查询已知的治疗序列,研究人员可以在可变域的任何区域上寻找治疗剂之间的序列共性。 或者,通过查询developmental候选序列,研究人员可以搜索与任何其他治疗药物的相似性,或与设计为结合相同靶标的药物的特异性。 这可能会发现潜在的专利问题,突出多专业城市的风险,或建议对预期目标具有约束力的模式。

有关Thera-SAbDab的示例用例的更多选择,请访问 http://opig.stats.ox.ac.uk/webapps/therasabdab/about

五、数据可访问性

Thera-SAbDab可在 http://opig.stats.ox.ac.uk/webapps/newsabdab/therasabdab/search/ 。 可以从搜索页面的“下载”标签中下载Thera-SAbDab收集的所有序列数据。 序列与治疗性INN,形式,同种型,轻链类别,达到的最高临床试验阶段以及估计的发育状况一起提供。 我们还提供了尚未公布其序列信息的治疗药物清单。

六、结论

我们创建Thera-SAbDab的主要目的是收集WHO公认的抗体和纳米抗体相关治疗可变域的所有公共结构知识。 Thera-SAbDab不再依赖于文本挖掘方法,因为它可能会遗漏忽略该结构的治疗相关性的PDB depositions,而是在序列同一性级别使用系统方法来检测与我们的治疗变量存储库的精确匹配和紧密匹配域。

与现有数据库相比,这种方法不仅使我们能够识别出PDB中具有100%序列相同结构的单克隆疗法,其数量是现有数据库的两倍多,而且还为几种双特异性疗法确定了精确的可变域结构。我们的方法还可以区分具有100%,99%和95-98%序列同一性匹配的PDB结构。序列比对指导对几乎相同序列的结构的解释。

像IMGT-DB一样,Thera-SAbDab可以通过元数据查询,但唯一地,它也可以通过可变域序列查询。这使研究人员能够确定在其查询序列的任何可变域区域附近的任何疗法。

Thera-SAbDab的序列数据库将每年更新两次,并使用新的序列信息进行更新,以符合WHO新提议的INN清单的发布。具有元数据的所有治疗性可变域序列的更新列表作为单个文件提供,以促进进一步分析,例如,分析治疗性抗体-抗原界面的特性。

如结合IL17A的治疗剂所示,新的临床相关结构正在不断释放。因此,Thera-SAbDab在每周更新一次之后检查SAbDab是否有新的匹配项,以确保快速捕获此数据。

参考资料

  • Raybould, M. I. J., Marks, C., Lewis, A. P., Shi, J., Bujotzek, A., Taddese, B., & Deane, C. M. (2019). Thera-SAbDab: the Therapeutic Structural Antibody Database. Nucleic Acids Research, 1–6. https://doi.org/10.1093/nar/gkz827
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学