【5.4】国际免疫遗传学数据库-IMGT数据库

一、IMGT简介

IMGT,国际免疫遗传学数据库,是一个专注于所有脊椎动物物种的免疫球蛋白、T细胞受体(T-cell Receptors,TcR)和主要组织相容性复合体(major histocompatibility complex,MHC)的整合数据库,由Marie-Paule Lefranc、法国科学研究中心、法国蒙彼利埃第二大学发起并共同协调(lefranc@ligm.crbm.cnrs-mop.fr)。IMGT包括两个数据库:LIGM-DB(面向免疫球蛋白和TcR)和MHC/HLA-DB。IMGT由专家注释的序列和比对表组成。LIGM-DB包含了来自78种物种的超过19,000个免疫球蛋白和TcR序列。MHC/HLA-DB包含了I类和II类白血球抗原比对表。一个为免疫球蛋白、TcR和MHC序列比对而开发的IMGT工具DNAPLOT也是可用的。IMGT与EMBL数据库紧密合作。IMGT的目标是建立一个对所有免疫遗传学数据的通用访问,包括序列、寡核苷酸引物、基因图谱和免疫球蛋白、TcR和MHC分子的其他遗传数据,并提供一个图形化的用户友好的数据访问。IMGT将对医学研究(自身免疫病、爱滋病、白血病,淋巴瘤)、治疗方法(抗体工程学)、基因组多样性和基因组进化研究具有重要影响

1.1 IMGT本体论 (IMGT-ONTOLOGY)

免疫球蛋白(IG)和T细胞受体(TR)链的分子合成和遗传学以及MH的多态性特别复杂,因此IMGT-ONTOLOGY的首要任务之一包括对免疫遗传学领域和IGGT基因命名规则和氨基酸和密码子的生物信息学

IMGT-ONTOLOGY包括受控的词汇注释规则,这些规则对于确保免疫遗传学数据与科学知识的准确性、一致性和连贯性是必不可少的。IMGT-Ontistic允许科学家和临床医生使用相同的术语具有相同的含义。这为更一般的分子生物学本体论提供了一个语义库,因此将有助于提高专家和多面手数据库之间的互操作性。

七个IMGT-ONTOLOGY的公理(axiom)被定义:

  • identification : “识别”公理假定分子、细胞、器官、有机体或种群及其过程和关系必须被识别。在分子免疫遗传学中,“鉴定”公理假定IG、TR、MHC序列和3D结构必须根据基本的生物学和免疫遗传学特征来鉴定[1]。“识别”公理产生了识别概念:
    • the ‘Taxon’ concept
    • the ‘MoleculeType’ concept
    • the ‘GeneType’ concept *
    • the ‘ConfigurationType’ concept *
    • the ‘Molecule_EntityType’ concept
    • the ‘Functionality’ concept
    • the ‘StructureType’ concept
    • the ‘Molecule_ReceptorType’ concept
    • the ‘ChainType’ concept
    • the ‘DomainType’ concept
    • the ‘Specificity’ * and the ‘Function’ concepts
    • the ‘ClassType’ and the ‘SubClassType’ concepts
  • description : “描述”公理假定分子、细胞、器官、有机体或种群及其过程和关系必须被描述。在分子免疫遗传学中,“描述”公理假定必须描述IG、TR和MHC序列,并且它们的特异和保守基序被表征[1]。“描述”公理已经产生了描述的概念,例如:
    • the ‘Entity Prototype’ concept
    • the ‘Core’ concept
    • the ‘Cluster’ concept
    • the ‘Domain’ concept
  • classification: “分类”公理假定分子、细胞、器官、有机体或种群及其过程和关系必须被分类。在分子免疫遗传学中,“分类”公理假设IG和TR基因必须被命名和分类。“分类”公理已经产生了分类的概念,例如:
    • the ‘Clan’ concept
    • the ‘Group’ concept
    • the ‘Subgroup’ concept
    • the ‘Gene’ concept
    • the ‘Allele’ concept
  • numerotation (编号): “编号”公理假定分子、细胞、器官、生物体和种群及其过程和关系必须被编号。在分子免疫遗传学中,“NUMEROT.”公理假定IG、TR和MHC序列必须在一维或数维空间中进行编号。“数字化”公理产生了数字化的概念,例如:IMGT unique numbering、IMGT Collier de Perles
  • localization(定位) : “定位”公理假定分子、细胞、器官、有机体或种群及其过程和关系必须位于时间或空间中。在免疫遗传学领域的分子水平上,定位的概念允许表征IG和TR基因的定位。“定位”公理已经产生了本地化的概念,例如:Locus、Chromosomal orphon set、Cassette。更多定位信息见:http://www.imgt.org/IMGTrepertoire/LocusGenes/#B
  • orientation (方向):“方向”公理假定分子、细胞、器官、有机体或种群及其过程和关系必须定向。“定向”公理产生了定向的概念,例如:Genomic orientation、DNA strand orientation
  • obtention(注意) : “obtention”公理假定分子、细胞、器官、生物体或种群及其过程和关系已经获得。已经获得或发生的起源和条件必须加以界定。在分子免疫遗传学中,“obtention”公理假定,序列和3D结构已经获得的起源和条件必须被定义[1]。“obtention”公理已经产生了概念,例如: Origin、Methodology

他们正式的构成了IMGT-ONTOLOGY 或IMGT-Kaleidoscope。

IMGT-ONTOLOGY 跟 Gene Ontology (GO) 关联

  • 包括:immunoglobulins(IG),T细胞受体(TR),主要组织相容性(MH)蛋白和其他蛋白humans of of the vertebrates,immunoglobulin芋螺芋螺(IgSF)和MH(MHSF),免疫相关蛋白(RPI)of the system of vertebrates和invertebrates,疗效单克隆抗体(mAb),免疫应用融合蛋白(FPIA)和临床应用的复合蛋白(CPCA)。
  • 对于这些蛋白质,IMGT-ONTOLOGY概念与GO是互补的,对于IG、TR和MH,IMGT-ONTOLOGY概念从以下GO概念开始:
IMGT-ONTOLOGY GO
Immunoglobulin (IG) GO:0019814
T cell receptor (TR) GO:0042101
Major histocompatibility (MH) GO:0042611

他们的下级关系

IMGT-ONTOLOGY GO
T cell receptor (TR) alpha_beta GO:0042105
T cell receptor (TR) gamma_delta GO:0042106
Major histocompatibility 1 (MH1) GO:0042612
Major histocompatibility 2 (MH2) GO:0042613

这七个条目是IMGT-ONTOLOGY和GO唯一共享的条目,强调了两个本体的互补性。注意,GO的定义(分别是免疫球蛋白复合物、T细胞受体复合物、MHC蛋白复合物)由于使用了“复合物”一词而具有误导性,因此没有被IMGT使用。(???)

IMGT-ONTOLOGY 跟 Sequence Ontology (SO) 关联

  • 六十四的IMGT/LIGB-DB标准化的核苷酸序列标签用于序列本体(SO)。
  • IMGT标签是IMGT-本体描述公理的一部分。它们还包括IGGT /蛋白质-DB和IMGT/3DB结构的标签,这些标签没有在SO中处理。
IMGT-ONTOLOGY 、DESCRIPTION concept、IMGT Labels Sequence Ontology (SO) 、terms
J-RS SO:0000302
J-HEPTAMER SO:0000515
J-NONAMER SO:0000514
….

一、IMGT/GENE-DB Documentation

1.1 介绍

更多详情见官网:http://www.imgt.org/genedb/doc

IMGT是 (国际免疫基因学信息系统, international ImMunoGeneTics information system) 是专门研究人类和其他脊椎动物免疫球蛋白(IG)或抗体、T细胞受体(TR)和主要组织相容性(MH)、t免疫球蛋白超家族(IgSF)和MH超家族(MhSF)、脊椎动物和无脊椎动物免疫系统的相关蛋白、治疗性单克隆抗体(mAb)和免疫应用融合蛋白(FPIA),由Marie-Paule Lefranc(LIGM,UniversitéMontp)于1989年创建)。

IMGT/GENE-DB 是IMGT的一部分,是2003年2月以来人类、小鼠和其他脊椎动物Ig和TR基因的IGGT基因组数据库。

IMGT/GENE-DB提供了基因及其等位基因的完整特征:IMGT基因名称和定义、染色体定位、等位基因数目,以及每个等位基因的IMGT等位基因功能,以及来自文献的IMGT参考序列和其他序列。IMGT/GENE-DB等位基因参考序列可用FASTA格式(根据IMGT唯一编号具有IMGT间隙的核苷酸和氨基酸序列,或没有间隙)。IMGT/GENE-DB包括到IMGT Repertoire标准化资源(染色体定位、位点表示、等位基因表、等位基因比对、IMGT蛋白质显示、IMGT Colliers de Perles等)到IMGT/LIGM-DB和IMGT/3D.-DB结构和IMGT/2D.-DB的链接IMGT数据库。

IMGT/GEN-DB是世界卫生组织(WHO)/国际免疫学会联合会(IUIS)命名委员会IG和TR(LeFrcC 2007,2008 8A)批准的所有Ig和TR基因和等位基因的官方储存库。IMGT/Gen-DB与人类基因组命名委员会(HGNC)数据库、NCBI Gene在国家生物技术信息中心(NCBI)和Vega Genome Browser(Wel轻eSrust SangyInstitute)之间存在相互联系。

1.2 搜索界面

在界面的右上角,可以看到截止时间内,数据库现有的基因个数,alleles个数,物种个数

IDENTIFICATION

  • Species: 选择物种
  • MolecularComponent: IG or TR.
  • GeneType: “基因型”概念允许识别存在于免疫球蛋白或T细胞受体序列中的基因。
    • variable (V)
    • diversity (D)
    • joining (J) genes which encode the antigen binding sites
    • the constant ( C) genes which encode the part of the protein which has effector properties
  • Functionality: identification定义中的一个子标签
    • FUNCTIONAL: 位于germline entity (V-GENE, D-GENE or J-GENE) 或C-GENE,且编码区域具有没有终止子的开放阅读框(ORF),并且剪接位点、重组信号和/或调节元件中没有描述的缺陷
    • ORF (Open Reading Frame): 位于germline entity(V-GENE、D-GENE或J-GENE)或C-GENE,如果编码区域具有开放阅读框架,但:1. 在剪接位点、重组信号和/或调节元件中已经描述了改变;2. 和/或保守氨基酸的变化已被作者建议为导致不正确折叠; 3. 和/或实体是一个孤儿
    • PSEUDOGENE: 位于germline entity (V-GENE, D-GENE or J-GENE) 或C-GENE,如果编码区具有终止密码子和/或移码突变。特别是, 如果这些缺陷发生在L-PART1 and/or V-EXON,如果 L-PART1 INIT-CODON有一个突变的V-GENE ; 如果J-GENE已经通过开放阅读框上游的复合信号的存在而被鉴定,但是它在5’中没有供体剪接位点,或者供体剪接不在预期的sf1中,或者如果没有J-MOTIF被鉴定,则认为它是伪基因;
  • Clone name: enter a clone name or the first letters of a clone name. Clone names are those of the “Reference sequences” and “Sequences from the literature” columns in Genes tables.

三、fasta序列

http://www.imgt.org/vquest/refseqh.html

选择的是:

IG “V-REGION”, “D-REGION”, “J-REGION”, “C-GENE exon” sets

IGHV IGKV IGLV + F+ORF+in-frame P + Human + Amino acids

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学