【1.3】Entrez

有将近38个库,这里仅列举了部分,具体请参见( https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

  • Literature
    • Books: 在线生物医学图书
    • PubMed 生物医学文献数据库
  • Health
    • OMIM : 人类孟德尔遗传数据库
  • Genomes
    • SRA:二代测序的原始数据
    • SNP: 单核苷酸多肽性数据库
    • Taxonomy: GenBank 中的物种分类学数据库
  • Genes
    • GEO: 基因表达数据库
  • Proteins
    • Structure: 大分子三维结构数据库
  • Chemicals
    • BioSystems 跟基因,蛋白,化学分子关联的分子通路

二、Entrez检索的方法

  1. 检索规则
  • 词间默认逻辑关系为AND
  • 短语检索加引号“”;
  • 使用的逻辑运算符有AND、OR 和NOT, 但必须大写;
  • 支持截词检索, 截词符用*表示;
  • 定义词条类型:[ ]
  • 用:表示起始

例子:

从左到右的顺序,关联词大写
promoters OR response elements NOT human AND mammals

先执行括号里面的逻辑
g1p3 AND (response element OR promoter)

horse[Organism]
neoplasms[MeSH Terms]
prolactin[Protein Name]
srcdb_refseq[Properties]
2010/06[Publication Date]


110:500[Sequence Length]
2015/3/1:2016/4/30[Publication Date]

PubMed: ("horses"[MeSH Terms] OR "horses"[All Fields] OR "horse"
[All Fields] OR "equidae"[MeSH Terms] OR "equidae"[All Fields]) 
AND ("receptors, dopamine d2"[MeSH Terms] OR ("receptors"[All Fields]
 AND "dopamine"[All Fields] AND "d2"[All Fields]) OR "dopamine d2 
receptors"[All Fields] OR ("dopamine"[All Fields] AND "receptor"
[All Fields] AND "d2"[All Fields]) OR "dopamine receptor d2"[All Fields])

Protein: ("Equus caballus"[Organism] OR horse[All Fields]) AND (dopamine 
receptor D2[Protein Name] OR (dopamine[All Fields] AND receptor[All Fields]
 AND D2[All Fields])  

模糊匹配
NC_0000*[Accession] AND Human[Organism]

2.搜索

a. 图形界面的搜索

在主页 https://www.ncbi.nlm.nih.gov/ 选择好数据库,进行检索。

NCBI上所有的资源见:https://www.ncbi.nlm.nih.gov/guide/all/

登陆NCBI以后会保留你的搜索记录。

进入单独的数据库搜索界面,会有advanced选项,更精细的搜索:

Nucleotide: www.ncbi.nlm.nih.gov/nucleotide
PubMed: www.ncbi.nlm.nih.gov/pubmed
Gene: www.ncbi.nlm.nih.gov/gene/advanced

b. 直接输入网址

  • 蛋白编号gi4557757,GenPept格式(默认)

    www.ncbi.nlm.nih.gov/protein/4557757

  • 核酸编号,NM_000240和NM_000041,GenBank格式

    www.ncbi.nlm.nih.gov/nucleotide/NM_000240,NM_000041&report=genbank

  • Gene编号348

    www.ncbi.nlm.nih.gov/gene/348

  • Gene编号348,XML格式

    www.ncbi.nlm.nih.gov/gene/348?report=XML

  • PubMed ID为9705509和19745054,abstract格式

    www.ncbi.nlm.nih.gov/pubmed/9705509,19745054?report=abstract&format=text

  • 在nucleotide中搜索APOE基因,限制一页呈现200个结果

    www.ncbi.nlm.nih.gov/nucleotide/?term=APOE[gene]&dispmax=200

  • 在PubMed中搜索Lipman DJ和PMID的格式呈现 www.ncbi.nlm.nih.gov/pubmed/?term=Lipman+DJ&report=uilist

  1. 命令行的搜索

可以通过E-utilities(Entrez Programming Utilities )来进行批量的下载或检索。

感兴趣的可以参考:https://www.ncbi.nlm.nih.gov/books/NBK25501/

bioython也带有相关的工具:http://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr09.html

参考资料

《NCBI的Entrez系统检索技巧》

https://www.ncbi.nlm.nih.gov/books/NBK3837/

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学