【1.6.2】Entrez (Gene ID)

需要明确的是,我们常说的NCBI是一个机构组织,而不是数据库喔。那么,我们登陆的NCBI的网页(https://www.ncbi.nlm.nih.gov/) 所访问的数据库和NCBI是什么关系呢?那就不得不提Entrez啦!

Entrez是归属于NCBI的一个综合的文本检索引擎系统。这个检索引擎整合了PubMed数据库的生物医学文献与其他39个文献和分子数据库(例如GEO,Entrez Gene等,这些数据库基本涵盖了DNA和蛋白质序列,结构,基因,基因组,遗传变异和基因表达方面的数据)。

所以,我们通常所说的检索NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。简而言之就是,NCBI组织建立了Entrez,Entrez整合了各大数据库的入口,方便我们进行数据库检索

一、NCBI涉及的库

有将近38个库,这里仅列举了部分,具体请参见( https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

  • Literature
    • Books: 在线生物医学图书
    • PubMed 生物医学文献数据库
  • Health
    • OMIM : 人类孟德尔遗传数据库
  • Genomes
    • SRA:二代测序的原始数据
    • SNP: 单核苷酸多肽性数据库
    • Taxonomy: GenBank 中的物种分类学数据库
  • Genes
    • GEO: 基因表达数据库
  • Proteins
    • Structure: 大分子三维结构数据库
  • Chemicals
    • BioSystems 跟基因,蛋白,化学分子关联的分子通路

在这里仅仅讨论其中的几个数据集,更多的讨论会在后面的章节里面看到

1.1 Gene查找好帮手-Entrez Gene数据库

Entrez Gene数据库其实就是我们现在指的NCBI中的Gene数据库(这两个名字指的是同一个数据库) Gene数据库建立的目的是,整合各个方面和基因相关的数据资源,构建一个能够使人快速访问并且获取特定基因信息的访问入口,从而为数据交换以及科学家们的研究提供便利。它的数据包含了和基因相关的序列,结构,以及基因表达等等的信息,是基因资源的综合数据库。

Gene数据库首次公开是在1999年,那时它的名字还不叫Gene,而是叫做LocusLink(曾用名,现已不再使用)。当时刚刚发表的LocusLink只包含了人类这一个物种的数据信息,而且只有不多于9000条的记录。LocusLink的外链数据库也只有dbSNP, OMIM, RefSeq, GenBank, 和UniGene。(见下图)

而到2003年,Entrez Gene数据库发布,Gene数据库的数据已经包含了10个物种,195000条记录,外链数据库也增加了许多,包括dbSNP, Ensembl, the HUGO Gene Nomenclature Committee (HGNC), GEO, Map Viewer等等。至今,随着生物大数据的爆发式增长,Gene数据库包含的数据记录与外链数据库也越来越多,已经成为生信工作者必不可少的工具之一。

关于Entrez Gene数据库,我们还可以来看看一个统计数字( https://www.ncbi.nlm.nih.gov/gene/statistics/?TAXORG=9606 )。Entrez Gene 中目前一共有61118条人类的Gene ID记录(记录包括功能基因,假基因,预测基因等等),可以说是非常全面了。(人不是2万个基因么?这里怎么是6万呢??)

同时,Gene数据库中的ID记录是每日更新一次,可以保证我们每天看到的Gene ID记录都是最新的啦

Entrez Gene数据库是Gene查找的好帮手,一般情况下我们如果想快速了解一个Gene的基本信息,可以直接进入(https://www.ncbi.nlm.nih.gov/gene/) 进行搜索。

我们输入TP53之后会得到这样的检索结果界面:

在标题下面,我们可以看到Gene ID: 7157 这一行,7157就是我们耳熟能详的Entrez Gene ID啦,它是目前国际上最权威的Gene ID编号!

  • Entrez Gene ID 又可以称为Entrez ID ,也是我们通常所说的Gene ID 。它是来源于Entrez Gene数据库的编号系统。
  • 每个Gene数据库中的记录数据都会被分配一个唯一的Gene ID编号。编号的格式就是一串数字,例如:7157,2131这样的。同时,Gene ID的数字并不是连续分配的(也就是说有间隔)。
  • Gene ID的分配规则:Gene ID通常被分配给RefSeq数据库中注释为基因的对象,当然,并不是所有的Gene ID都基于RefSeq,如果RefSeq数据库中没有记录,也可以指定GeneID。
  • 需要注意的是,Gene ID编号的命名是具有物种特异性的(例如,编码人的肌营养不良蛋白的基因和编码小鼠肌营养不良蛋白的基因,它们俩的Gene ID在Gene数据库中编号是不一样的,分别是:1756 和 13405)。

可见,我们的Enrez Gene数据库的发展也是很迅速哒! 了解完Entrez Gene之后,我们再接着往下看,出现了Summary这一栏,首先映入眼帘的是三行

  • Official Symbol : TP53 provided by HGNC
  • Official Full Name tumor protein p53 provided by HGNC
  • Primary source HGNC: HGNC:11998

不约而同,这三行的内容来源均是 HGNC

在TP53的检索结果接着向下看,会看到See related这一行,它提供了和TP53这个基因相关的外链数据库的连接。即Ensembl ,MIM以及Vega 。

Ensembl:ENSG00000141510 即Ensembl数据库的ID编号,MIM:191170是来源于OMIM数据库(Online Mendelian Inheritance in Man ,人类孟德尔遗传在线数据库)的编号。Vega:OTTHUMG00000162125来自Vega数据库(Vertebrate Genome Annotation,脊椎动物基因组注释 ) 其中,Ensembl ID可以说是非常常见了。详见Ensembl数据库

二、Entrez检索的方法

2.1 检索规则

  • 词间默认逻辑关系为AND
  • 短语检索加引号“”;
  • 使用的逻辑运算符有AND、OR 和NOT, 但必须大写;
  • 支持截词检索, 截词符用*表示;
  • 定义词条类型:[ ]
  • 用:表示起始

例子:

从左到右的顺序,关联词大写
promoters OR response elements NOT human AND mammals

先执行括号里面的逻辑
g1p3 AND (response element OR promoter)

horse[Organism]
neoplasms[MeSH Terms]
prolactin[Protein Name]
srcdb_refseq[Properties]
2010/06[Publication Date]


110:500[Sequence Length]
2015/3/1:2016/4/30[Publication Date]

PubMed: ("horses"[MeSH Terms] OR "horses"[All Fields] OR "horse"
[All Fields] OR "equidae"[MeSH Terms] OR "equidae"[All Fields]) 
AND ("receptors, dopamine d2"[MeSH Terms] OR ("receptors"[All Fields]
 AND "dopamine"[All Fields] AND "d2"[All Fields]) OR "dopamine d2 
receptors"[All Fields] OR ("dopamine"[All Fields] AND "receptor"
[All Fields] AND "d2"[All Fields]) OR "dopamine receptor d2"[All Fields])

Protein: ("Equus caballus"[Organism] OR horse[All Fields]) AND (dopamine 
receptor D2[Protein Name] OR (dopamine[All Fields] AND receptor[All Fields]
 AND D2[All Fields])  

模糊匹配
NC_0000*[Accession] AND Human[Organism]

2.2 搜索

a. 图形界面的搜索

在主页 https://www.ncbi.nlm.nih.gov/ 选择好数据库,进行检索。

NCBI上所有的资源见:https://www.ncbi.nlm.nih.gov/guide/all/

登陆NCBI以后会保留你的搜索记录。

进入单独的数据库搜索界面,会有advanced选项,更精细的搜索:

Nucleotide: www.ncbi.nlm.nih.gov/nucleotide
PubMed: www.ncbi.nlm.nih.gov/pubmed
Gene: www.ncbi.nlm.nih.gov/gene/advanced

b. 直接输入网址

  • 蛋白编号gi4557757,GenPept格式(默认)

    www.ncbi.nlm.nih.gov/protein/4557757

  • 核酸编号,NM_000240和NM_000041,GenBank格式

    www.ncbi.nlm.nih.gov/nucleotide/NM_000240,NM_000041&report=genbank

  • Gene编号348

    www.ncbi.nlm.nih.gov/gene/348

  • Gene编号348,XML格式

    www.ncbi.nlm.nih.gov/gene/348?report=XML

  • PubMed ID为9705509和19745054,abstract格式

    www.ncbi.nlm.nih.gov/pubmed/9705509,19745054?report=abstract&format=text

  • 在nucleotide中搜索APOE基因,限制一页呈现200个结果

    www.ncbi.nlm.nih.gov/nucleotide/?term=APOE[gene]&dispmax=200

  • 在PubMed中搜索Lipman DJ和PMID的格式呈现 www.ncbi.nlm.nih.gov/pubmed/?term=Lipman+DJ&report=uilist

2.3 命令行的搜索

可以通过E-utilities(Entrez Programming Utilities )来进行批量的下载或检索。

感兴趣的可以参考:https://www.ncbi.nlm.nih.gov/books/NBK25501/

bioython也带有相关的工具:http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr09.html

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学