【1.6.2】Entrez (Gene ID)
需要明确的是,我们常说的NCBI是一个机构组织,而不是数据库喔。那么,我们登陆的NCBI的网页(https://www.ncbi.nlm.nih.gov/) 所访问的数据库和NCBI是什么关系呢?那就不得不提Entrez啦!
Entrez是归属于NCBI的一个综合的文本检索引擎系统。这个检索引擎整合了PubMed数据库的生物医学文献与其他39个文献和分子数据库(例如GEO,Entrez Gene等,这些数据库基本涵盖了DNA和蛋白质序列,结构,基因,基因组,遗传变异和基因表达方面的数据)。
所以,我们通常所说的检索NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。简而言之就是,NCBI组织建立了Entrez,Entrez整合了各大数据库的入口,方便我们进行数据库检索
一、NCBI涉及的库
有将近38个库,这里仅列举了部分,具体请参见( https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi )
- Literature
- Books: 在线生物医学图书
- PubMed 生物医学文献数据库
- Health
- OMIM : 人类孟德尔遗传数据库
- Genomes
- SRA:二代测序的原始数据
- SNP: 单核苷酸多肽性数据库
- Taxonomy: GenBank 中的物种分类学数据库
- Genes
- GEO: 基因表达数据库
- Proteins
- Structure: 大分子三维结构数据库
- Chemicals
- BioSystems 跟基因,蛋白,化学分子关联的分子通路
在这里仅仅讨论其中的几个数据集,更多的讨论会在后面的章节里面看到
1.1 Gene查找好帮手-Entrez Gene数据库
Entrez Gene数据库其实就是我们现在指的NCBI中的Gene数据库(这两个名字指的是同一个数据库) Gene数据库建立的目的是,整合各个方面和基因相关的数据资源,构建一个能够使人快速访问并且获取特定基因信息的访问入口,从而为数据交换以及科学家们的研究提供便利。它的数据包含了和基因相关的序列,结构,以及基因表达等等的信息,是基因资源的综合数据库。
Gene数据库首次公开是在1999年,那时它的名字还不叫Gene,而是叫做LocusLink(曾用名,现已不再使用)。当时刚刚发表的LocusLink只包含了人类这一个物种的数据信息,而且只有不多于9000条的记录。LocusLink的外链数据库也只有dbSNP, OMIM, RefSeq, GenBank, 和UniGene。(见下图)
而到2003年,Entrez Gene数据库发布,Gene数据库的数据已经包含了10个物种,195000条记录,外链数据库也增加了许多,包括dbSNP, Ensembl, the HUGO Gene Nomenclature Committee (HGNC), GEO, Map Viewer等等。至今,随着生物大数据的爆发式增长,Gene数据库包含的数据记录与外链数据库也越来越多,已经成为生信工作者必不可少的工具之一。
关于Entrez Gene数据库,我们还可以来看看一个统计数字( https://www.ncbi.nlm.nih.gov/gene/statistics/?TAXORG=9606 )。Entrez Gene 中目前一共有61118条人类的Gene ID记录(记录包括功能基因,假基因,预测基因等等),可以说是非常全面了。(人不是2万个基因么?这里怎么是6万呢??)
同时,Gene数据库中的ID记录是每日更新一次,可以保证我们每天看到的Gene ID记录都是最新的啦
Entrez Gene数据库是Gene查找的好帮手,一般情况下我们如果想快速了解一个Gene的基本信息,可以直接进入(https://www.ncbi.nlm.nih.gov/gene/) 进行搜索。
我们输入TP53之后会得到这样的检索结果界面:
在标题下面,我们可以看到Gene ID: 7157 这一行,7157就是我们耳熟能详的Entrez Gene ID啦,它是目前国际上最权威的Gene ID编号!
- Entrez Gene ID 又可以称为Entrez ID ,也是我们通常所说的Gene ID 。它是来源于Entrez Gene数据库的编号系统。
- 每个Gene数据库中的记录数据都会被分配一个唯一的Gene ID编号。编号的格式就是一串数字,例如:7157,2131这样的。同时,Gene ID的数字并不是连续分配的(也就是说有间隔)。
- Gene ID的分配规则:Gene ID通常被分配给RefSeq数据库中注释为基因的对象,当然,并不是所有的Gene ID都基于RefSeq,如果RefSeq数据库中没有记录,也可以指定GeneID。
- 需要注意的是,Gene ID编号的命名是具有物种特异性的(例如,编码人的肌营养不良蛋白的基因和编码小鼠肌营养不良蛋白的基因,它们俩的Gene ID在Gene数据库中编号是不一样的,分别是:1756 和 13405)。
可见,我们的Enrez Gene数据库的发展也是很迅速哒! 了解完Entrez Gene之后,我们再接着往下看,出现了Summary这一栏,首先映入眼帘的是三行
- Official Symbol : TP53 provided by HGNC
- Official Full Name tumor protein p53 provided by HGNC
- Primary source HGNC: HGNC:11998
不约而同,这三行的内容来源均是 HGNC
在TP53的检索结果接着向下看,会看到See related这一行,它提供了和TP53这个基因相关的外链数据库的连接。即Ensembl ,MIM以及Vega 。
Ensembl:ENSG00000141510 即Ensembl数据库的ID编号,MIM:191170是来源于OMIM数据库(Online Mendelian Inheritance in Man ,人类孟德尔遗传在线数据库)的编号。Vega:OTTHUMG00000162125来自Vega数据库(Vertebrate Genome Annotation,脊椎动物基因组注释 ) 其中,Ensembl ID可以说是非常常见了。详见Ensembl数据库
二、Entrez检索的方法
2.1 检索规则
- 词间默认逻辑关系为AND
- 短语检索加引号“”;
- 使用的逻辑运算符有AND、OR 和NOT, 但必须大写;
- 支持截词检索, 截词符用*表示;
- 定义词条类型:
- 用:表示起始
例子:
从左到右的顺序,关联词大写
promoters OR response elements NOT human AND mammals
先执行括号里面的逻辑
g1p3 AND (response element OR promoter)
horse[Organism]
neoplasms[MeSH Terms]
prolactin[Protein Name]
srcdb_refseq[Properties]
2010/06[Publication Date]
110:500[Sequence Length]
2015/3/1:2016/4/30[Publication Date]
PubMed: ("horses"[MeSH Terms] OR "horses"[All Fields] OR "horse"
[All Fields] OR "equidae"[MeSH Terms] OR "equidae"[All Fields])
AND ("receptors, dopamine d2"[MeSH Terms] OR ("receptors"[All Fields]
AND "dopamine"[All Fields] AND "d2"[All Fields]) OR "dopamine d2
receptors"[All Fields] OR ("dopamine"[All Fields] AND "receptor"
[All Fields] AND "d2"[All Fields]) OR "dopamine receptor d2"[All Fields])
Protein: ("Equus caballus"[Organism] OR horse[All Fields]) AND (dopamine
receptor D2[Protein Name] OR (dopamine[All Fields] AND receptor[All Fields]
AND D2[All Fields])
模糊匹配
NC_0000*[Accession] AND Human[Organism]
2.2 搜索
a. 图形界面的搜索
在主页 https://www.ncbi.nlm.nih.gov/ 选择好数据库,进行检索。
NCBI上所有的资源见:https://www.ncbi.nlm.nih.gov/guide/all/
登陆NCBI以后会保留你的搜索记录。
进入单独的数据库搜索界面,会有advanced选项,更精细的搜索:
Nucleotide: www.ncbi.nlm.nih.gov/nucleotide
PubMed: www.ncbi.nlm.nih.gov/pubmed
Gene: www.ncbi.nlm.nih.gov/gene/advanced
b. 直接输入网址
-
蛋白编号gi4557757,GenPept格式(默认)
-
核酸编号,NM_000240和NM_000041,GenBank格式
www.ncbi.nlm.nih.gov/nucleotide/NM_000240,NM_000041&report=genbank
-
Gene编号348
-
Gene编号348,XML格式
-
PubMed ID为9705509和19745054,abstract格式
www.ncbi.nlm.nih.gov/pubmed/9705509,19745054?report=abstract&format=text
-
在nucleotide中搜索APOE基因,限制一页呈现200个结果
www.ncbi.nlm.nih.gov/nucleotide/?term=APOE[gene]&dispmax=200
-
在PubMed中搜索Lipman DJ和PMID的格式呈现 www.ncbi.nlm.nih.gov/pubmed/?term=Lipman+DJ&report=uilist
2.3 命令行的搜索
可以通过E-utilities(Entrez Programming Utilities )来进行批量的下载或检索。
感兴趣的可以参考:https://www.ncbi.nlm.nih.gov/books/NBK25501/
bioython也带有相关的工具:http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr09.html
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn