【1.1】NCBI概述

NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址: https://www.ncbi.nlm.nih.gov/

一、任务

  1. 为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
  2. 从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
  3. 促进生物学研究人员和医护人员应用数据库和软件;
  4. 努力协作以获取世界范围内的生物技术信息。

二、内容

1.文献数据库

包括:PubMed,PubMed Central,Books等

2.序列资源库

包括人,小鼠,果蝇,线虫等各种物种的基因组数据库

包含DNA,RNA,蛋白等各种类型的数据

如:SNP,GEO,SRA等

3.常用序列分析工具

  • Entrez – 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:https://www.ncbi.nlm.nih.gov/gquery/

  • BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

我们比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/

NCBI基因注释的数据

NCBI上基因注释的文件

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2refseq.gz
#该文件夹中还有其他的文件

The tax_id (taxonomy ID for C.Elgans is 6239 ) [ from Taxonomy browser http://www.ncbi.nlm.nih.gov/taxonomy ]

下载数据

wget -nc ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz

可以这样来提取信息

bash-3.00$ cat gene2refseq | awk '{if ($1==6239) print $0}' | head
6239    171590  REVIEWED    NM_058260.3 193203640   NP_490660.1 17510631    NC_003279.6 193203938   4123    10231   -   -
6239    171591  REVIEWED    NM_058259.3 193203639   NP_490661.1 17510629    NC_003279.6 193203938   11498   16830   +   -
6239    171592  REVIEWED    NM_058261.3 133902001   NP_490662.1 17510633    NC_003279.6 193203938   17496   26780   -   -
6239    171592  REVIEWED    NM_058262.3 86561628    NP_490663.1 17510635    NC_003279.6 193203938   17496   26780   -   -
6239    171593  REVIEWED    NM_058263.3 115533565   NP_490664.2 115533566   NC_003279.6 193203938   27594   32481   -   -
6239    171594  REVIEWED    NM_058265.3 71995026    NP_490666.2 25143331    NC_003279.6 193203938   49918   54359   +   -
6239    171595  REVIEWED    NM_058267.4 115533567   NP_490668.4 115533568   NC_003279.6 193203938   55315   64020   -   -
6239    171597  REVIEWED    NM_058269.2 71995034    NP_490670.1 17510145    NC_003279.6 193203938   85044   86283   -   -
6239    171599  REVIEWED    NM_058271.6 212645149   NP_490672.2 25143337    NC_003279.6 193203938   93030   94880   +   -
6239    171600  REVIEWED    NM_058272.4 212645150   NP_490673.1 17510147    NC_003279.6 193203938   96478   100612  -   -
-bash-3.00$ cat gene_info | grep 171590 | awk '{if ($1==6239) print $0}'
6239    171590  Y74C9A.3    Y74C9A.3    -   WormBase:WBGene00022277 I   -   hypothetical protein    protein-coding  -   -   -   -   20101017

参考资料

https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学