【7.3】结构抗体数据库(SAbDab)

结构抗体数据库(Structural antibody database)( SAbDab; http://opig.stats.ox.ac.uk/webapps/sabdab )是一个在线资源,其中包含所有公开注释的抗体结构,并以一致的方式显示。 数据带有几个属性,包括实验信息,基因详细信息,正确的重链和轻链配对,抗原详细信息以及(如果有的话)抗体-抗原结合亲和力。 用户可以根据这些属性以及诸如互补性决定区域环构象和可变域取向的结构特性来选择结构。 可以下载单个结构,数据集和完整的数据库。

一、前言

抗体构成了脊椎动物免疫反应的基础。 这些蛋白质与称为抗原的潜在致病分子形成复合物,并抑制其功能或募集免疫机制的其他成分来破坏它们。 除了抗体的生物学重要性外,它们针对几乎无限数量的分子产生的能力使它们成为有用的实验室工具,并越来越多地用作人类的治疗剂。 这种生物制药的应用激发了人们对理解如何确定抗体的结合,稳定性和免疫原性以及如何对其进行修饰的渴望。

计算分析和工具正越来越多地用于协助抗体工程过程。 现在,这些工具中的许多工具仅使用抗体数据,而不是一般的蛋白质数据,因为已证明可以提高性能。

大多数类型蛋白质的公开结构数据太稀疏,无法使用蛋白质特异的预测方法。但是,自1976年首次沉积抗体结构以来,蛋白质数据库(PDB)中的抗体结构数量有所增加,现在约占91939个条目总数的1.75%(2013年7月) 。

当前存在几个处理抗体数据的数据库(7-13)。其中,大多数是基于序列的或抗体发现工具:

  1. 最新的DIGIT(13)提供了免疫球蛋白的序列信息,并且比早期的序列数据库[Kabat(7),IMGT(9),Vbase2(8)]具有提供重链和轻链序列配对的优势。但是,它不包含结构数据。
  2. AntigenDB(11)和IEDB-3D(12)确实包含结构数据。但是,它们都集中在收集表位数据上,并且不包括未结合的抗体结构。
  3. 相比之下,IMGT(9)和Abysis门户(10)均提供检查和下载单个结合和未结合抗体结构的能力。既不允许生成定制数据集,也不允许下载精选的结构化数据。

为了解决这个问题,我们开发了结构抗体数据库(SAbDab),该数据库致力于以一致的方式自动收集,整理和显示抗体结构数据,以进行批量分析和单独检查。 SAbDab每周更新一次,并为用户提供一系列选择结构集的方法。例如,用户可以按种类,实验细节(例如方法,分辨率和r因子),与给定抗体序列的相似性,特定位置的氨基酸组成以及抗体-抗原亲和力进行选择。还可以使用结构注释来选择条目,所述结构注释包括例如互补决定区(CDR)的规范形式(14),抗体可变结构域(15)之间的取向以及结构中恒定结构域的存在。可以单独检查结构,也可以从PDB整体下载结构,也可以将其下载为使用Chothia编号方案注释的结构(16)。在所有情况下,都会生成一个制表符分隔的文件,其中详细说明了重链和轻链配对,抗体-抗原配对以及所有其他注释。

抗体结构命名 Antibody structure nomenclature

抗体具有明确定义的结构,该结构在大部分分子中均保守。它们通常由四条多肽链,两条轻链和两条较长的重链组成(见图1)。每条轻链折叠形成两个域,一个变量(VL)和一个常数(CL)。每条重链折叠形成四个或多个域,一个可变域(VH)和三个或多个恒定域(CH1,CH2和CH3)。来自一条轻链的VL和CL1结构域与重链的VH和CH1结构域结合形成抗原结合片段(FAB)。两个FAB形成抗体的Y形结构的臂。每个重链上的其余恒定域(CH2和CH3)结合形成Y的茎,并统称为可结晶(crystallisable)或恒定(FC)片段。

通常,天然抗体具有两个相同的抗原结合位点,每个FAB臂的末端都有一个。在可变片段(统称为FV)的两个域上,VH和VL是三个CDR:VH上的H1,H2和H3,VL上的L1,L2和L3。六个CDR中的五个具有可以归类为“规范簇”(canonical clusters)的结构(16)。剩余的loop,H3更具可变性,无法以相同的方式进行处理(17)。实际上,对H3环进行建模仍然是抗体结构预测中最困难的挑战之一(2)。

CDR外部每个可变域中的残基称为框架区(framework regions)。该框架在顺序上相对保守,并具有b-sandwich架构。这种保守的结构允许在抗体之间标注相同的残基位置。存在几种编号系统,它们在框架区域上基本相似,但在CDR周围具有不同的定义。在这里,我们主要使用广泛采用的Chothia编号方案(16),因为它是通过结构分析得出的信息,并在整个可变区域中定义。

二、数据来源和内容

2.1 抗体结构

截至2013年7月25日,该数据库包含具有一条或多条抗体链的1624个结构。其中1418具有形成FAB的至少一对重链和轻链。其余大部分是单结构域抗体,或者只有一条抗体链已经结晶的情况。 SAbDab每周更新一次,使用图1中概述的技术和以下详述的技术。该数据库目前正在以平均每周六个新结构的速度增长。

PDB每周都会发布新的实验结构。使用关键词搜索,可以识别大多数包含抗体链的关键词。但是,没有给出关于链类型,重链-轻链配对或抗体-抗原链配对的直接或一致的信息。因此:

  1. SAbDab尝试使用ABnum(18)将Chothia抗体编号应用于每个新链的序列。这会自动检测每个链的类型-重链,轻链或非抗体。该过程以递归方式应用于序列,以识别链的每个可变区,从而能够识别尚未拆分为单独链的单链Fv(scFv)。
  2. 使用MUSCLE将属于PDB条目的那些非抗体链包含不相等数量的重链和轻链与抗体序列图进行比对(19)。一条链必须与任何抗体序列图谱具有小于35%的序列同一性,才能被视为潜在抗原。超过此阈值的标记为手动检查。
  3. 此外,任何标头详细信息包含类似于“ T-cell”或“ MHC”的单词的结构都被标记为需要人工检查,然后才能包含在SAbDab中。

为了使重链和轻链配对,施加了约束,即重链Chothia 92位的保守半胱氨酸必须位于轻链88位的保守半胱氨酸22Å之内。从非抗体链和非聚合物,核酸或碳水化合物分子中鉴定出潜在的抗原。那些被认为是常见溶剂(20)的小分子(例如甘油)将被丢弃。然后通过计算在每个候选基因7.5Å以内的CDR残基数,将抗体链与其抗原分子配对。如果与抗体CDR接触的分子不止一个,则标记该结构以进行手动检查。多肽抗原如果包含> 50个氨基酸,则归类为蛋白质,否则包含肽。据报道只有结合的多肽链是抗原。其他抗原分类为碳水化合物,核酸或半抗原(非聚合配体)。表1总结了抗体-抗原复合物的含量(2013年7月)。

从许多外部来源获得了抗体和抗原的注释。如果该条目存在于IMGT数据库中,则将收集等位基因,基因,亚组,组和同种型的注释。如果没有IMGT条目,则通过与代表性序列进行比对,将每个抗体链注释到亚组水平。实验细节是从PDB收集的。有关非肽配体的名称,分子类型和结构的详细信息可从配体展览数据库(6)获得。

2.2 亲和力数据 Affinity data

抗体结合亲和力数据主要来自两个数据库,即PDB-Bind(21)和structure-based benchmark(22)。选择所有抗体条目,仅保留那些具有KA或KD数据的抗体。在可获得的情况下,还会收集与亲和力数据(例如实验条件)相关的元数据。

当前,SAbDab包含具有相关亲和力值的190个结构。总共133个与蛋白质结合,38个与肽结合,19个与半抗原结合(hapten antigens)。这个精选的数据集应该作为抗体-抗原对接预测社区和抗体工程界的有用基准资源。

2.3 互补决定区 Complementarity determining regions

抗体CDR具有多种特征(16,23–25)。在SAbDab中,注释了Kabat(23),Contact(24)和Chothia(16)CDR。根据这三个定义,为每种结构提取CDR的长度和序列,并将其记录在SAbDab中。在数据库中,进一步分析了Chothia CDR(16),以将成员资格分配到结构簇(structural clusters)中,这通常被称为规范构象( canonical conformations)。

给定CDR类型和长度的规范构象最初是为了将序列与结构连接而创建的。这些分组已被广泛研究(14、16、26-29)。鉴于PDB中抗体结构的数量呈指数增长(图2),我们提供了用于研究CDR结构类别的标准化工具。 SAbDab定期为每种类型(H1,H2,H3,L1,L2和L3)和长度聚集最新的Chothia CDR集。通过计算CDR之间的成对均方根偏差,并使用多个 cut-offs处的UPGMA聚类算法(30)进行聚类。对于每个群集,请注意与先前定义的规范类的任何对应关系。随着抗体结构数据量的不断增加,此功能将自动监视CDR的构象空间。

2.4 VH–VL方向

抗原结合位点在抗体的可变结构域VH和VL之间形成。 因此,site的拓扑结构受域相对于彼此的定向方式的影响。 已提出优化VH-VL方向作为微调抗体-抗原亲和力的机制。 确实,在人源化实验中,发现在发生远离抗原结合位点的突变后,亲和力得以恢复,因此表明结构发生了改变,从而改变了VH-VL的方向(31-33)。 在SAbDab中,我们使用ABangle方法(15),该方法使用六个度量,五个角度和一个距离以绝对意义表征方向。 这些措施允许表征抗体的定向空间。 在SAbDab中,我们自动为数据库中的每个FV区域计算这些度量。

三、访问数据

SAbDab中的数据可以通过多种方式访问和过滤。 可以检索和查看特定结构的详细信息,也可以选择和下载条目集。 另外,可以下载SAbDab的全部结构内容。

3.1 资料下载

对于每种结构,可以下载以下文件:

  1. pdb结构文件
  2. 对Chothia重新编号的结构文件
  3. 一个制表符分隔的摘要文件,其中包含有关链配对,抗原配对以及SAbDab收集的结构的其他注释的信息。

结构文件以PDB格式提供。 Chothia重新编号的文件包含结构中每个原子的坐标。 每个抗体残基在结构域的可变区上用Chothia编号方案重编号。 非可变区残基顺序编号(Non-variable region residues are numbered sequentially)。 非抗体链保留其原始残基编号。 每个文件的标题都包含有关链类型,配对和抗原配对的信息。 例如,结构1ahw(34)具有两个重轻链对:B–A和E–D。 它们分别与蛋白抗原链C和F结合。 因此,标题包含以下几行:

摘要文件是一个制表符分隔的.tsv文件,其中包含有关链对的信息和有关结构的详细信息,例如实验详细信息,抗原亲和力和种类。 第一行是每个字段的名称。 接下来的每行对应于成对的重链和轻链抗体链,细节对应于该对。 例如,1ahw的摘要文件的前六个字段显示为:

当用户选择任何结构集时,他们都可以使用“全部下载”功能以数据集的形式单独或集体下载每个结构的文件。 在后一种情况下,将创建一个单个zip文件,其中包含所有选定结构的存档。 还为选择中的所有重链和轻链配对创建了一个摘要文件。 也可以在没有结构数据的情况下单独下载此文件。

3.2 个别结构信息 Individual structure information

可以使用其PDB登录代码(例如1ahw)访问单个结构。访问结构后,用户将进入其摘要页面,如图3a所示。在此,可以用不同颜色标注的重链,轻链,抗原和CDR可视化结构。单击结构信息选项卡将显示详细信息,包括用于获取结构的实验方法,物种信息,重链和轻链配对的数量,以及抗体-抗原结合的相关KD和G值(如果有)。

在“成对链”信息选项卡下,可以找到有关每个成对重链和轻链(FAB)的更多详细信息。这些包括:H和L链标识符,FAB的结合状态,IMGT子组基因注释,每条链的Chothia编号序列,有关每个CDR的信息以及VH和VL结构域之间的方向度量。如果存在,则提供抗原及其序列的详细信息。

摘要页面还允许用户使用全套下载选项。还提供了指向原始PDB条目以及IMGT中结构条目的链接(如果可用)。

3.3 进阶搜寻工具

先进的搜索工具(图3b)允许用户根据许多属性选择结构。 属性包括实验方法,分辨率截止(用于X射线结构),r因子,结合状态(结合或未结合),抗原类型,抗体种类和抗体轻链类型(k或λ)。

用户还可以指定Chothia位置必须存在的氨基酸类型。 类似地,结构可以限于具有相关亲和力值的结构或具有存在的FAB区域的恒定域的结构。

点击“获取结构”按钮后,将向用户显示满足其选择的结构列表。 显示每个结构的基本信息,并提供每个条目的摘要页面的链接。 结果页面的“下载”部分提供了下载所选结构的选项。

3.4 非冗余数据集创建

就序列而言,PDB中的抗体和抗原结构是高度冗余的。例如,SAbDab中6%的结合抗原是溶菌酶。在分析数据集中过度代表某些类型的抗原可能会偏倚结果,尤其是在抗体-抗原对接领域,在该领域可以使用对位-表位接触来训练算法。为了克服这个问题,我们提供了一个非冗余的数据集创建工具。基于cd-hit(35)的结构基于抗体和抗原序列的序列同一性进行聚类。用户可以分别选择抗体和抗原的序列同一性水平,并为返回的结构指定其他限制条件。

3.5 CDR搜索工具

SAbDab提供CDR特定的搜索功能。用户可以使用与高级搜索工具(“高级搜索”部分)类似的标准来选择CDR。此外,可以根据不同的CDR定义及其结构簇或规范类别的成员资格,搜索CDR结构的CDR类型和长度。 SAbDab将返回所选CDR结构的列表。这些文件可以单独检查,也可以按照“下载”部分中的说明进行下载。 CDR搜索工具还允许选择一组非冗余的CDR结构。在这种情况下,仅返回关于类型,长度和顺序的不同结构。对于相同的序列,将返回分辨率最高的结构。

3.6 模板搜索工具

模板搜索工具允许用户识别SAbDab中与给定抗体序列具有最高序列同一性的那些结构。返回的条目可以用作在建模协议中使用的良好模板。可以根据它们在重链或轻链或两条链上的序列同一性搜索结构。用户可以指定他们是否希望在整个可变区,仅框架区,仅CDR或仅特定CDR上计算序列同一性。还提供了一个选项,要求每个模板在结构上与查询序列具有相同的位置,即模板和查询之间没有插入或删除。

提交后,将返回前N个模板(由用户指定),并按其与查询的匹配序列身份进行排序。可以分别检查每个结构,并可视化模板和查询序列之间的经Chothia编号的比对(图3c)。提供了一个选项,可以单独下载或全部下载所有返回的结构,以及模板序列与查询序列的多序列比对。

3.7 三角搜索工具

如“ VH–VL方向”部分中所述,可以使用六个绝对量度来表征可变域之间的方向。用户可以使用我们的ABangle搜索工具探索VH–VL方向空间(图3d)。每个小节的分布已划分为离散的bin。为了选择具有特定方向的结构,用户可以单击每个分布的一个或多个容器(或没有)。提交时,将返回VH-VL方向落入所选方向范围内的每个FV区域。另外,也可以使用“高级搜索”部分中的相同条件来选择结构并可视化它们在方向空间中的位置。例如,如果用户选择在Chothia位置L44具有脯氨酸(P)的结构,则这些结构将显示出与在相同位置具有色氨酸(W)的结构不同的取向偏好(15、36、37)。

“按pdb代码选择”功能允许选择多个单个结构以比较其VH-VL方向。该工具的一种应用是比较抗体的结合和未结合形式的VH-VL方向。例如,HIV-1中和抗体50.1已在没有其肽抗原的情况下和与其肽抗原复合的情况下被结晶(38)。这些结构被认为是抗原结合后抗体构象变化的证据。有趣的是,未结合的形式(1GGC和1GGB)具有不同寻常的方向,而与(1GGI)的结合具有已知抗体结构的典型方向。

四、结论

SAbDab以一致的方式从PDB收集,整理和展示抗体结构。 该数据库的目的是为抗体研究界提供一种工具,可轻松创建标准化的数据集进行分析并监视迅速增加的可用抗体结构数据。 每周自动更新使SAbDab中的数据保持最新,并确保该资源的寿命。 该数据库由其他独立的抗体软件补充,这些软件可以在SAbDab主页的“工具”部分下找到。 我们希望SAbDab为计算和实验抗体研究者提供有用的资源。 该数据库是完全开放访问的,可以在 http://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/ 上获得。

参考资料

  • Dunbar, J., Krawczyk, K., Leem, J., Baker, T., Fuchs, A., Georges, G., … Deane, C. M. (2014). SAbDab: The structural antibody database. Nucleic Acids Research, 42(D1), 1140–1146. https://doi.org/10.1093/nar/gkt1043
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn