【1.6.1】NCBI概述
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址: https://www.ncbi.nlm.nih.gov/
一、任务
- 为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
- 从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
- 促进生物学研究人员和医护人员应用数据库和软件;
- 努力协作以获取世界范围内的生物技术信息。
二、内容
2.1 文献数据库
包括:PubMed,PubMed Central,Books等
2.2 序列资源库
包括人,小鼠,果蝇,线虫等各种物种的基因组数据库
包含DNA,RNA,蛋白等各种类型的数据
如:SNP,GEO,SRA等
2.3 常用序列分析工具
-
Entrez – 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:https://www.ncbi.nlm.nih.gov/gquery/
-
BLAST – 序列比对工具
https://blast.ncbi.nlm.nih.gov/Blast.cgi
2.4 数据下载与上传
数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/
上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/
2.5 其他合作项目
我们比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/
三、NCBI基因注释的数据
NCBI上基因注释的文件
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2refseq.gz
#该文件夹中还有其他的文件
The tax_id (taxonomy ID for C.Elgans is 6239 ) [ from Taxonomy browser http://www.ncbi.nlm.nih.gov/taxonomy ]
下载数据
wget -nc ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
可以这样来提取信息
bash-3.00$ cat gene2refseq | awk '{if ($1==6239) print $0}' | head
6239 171590 REVIEWED NM_058260.3 193203640 NP_490660.1 17510631 NC_003279.6 193203938 4123 10231 - -
6239 171591 REVIEWED NM_058259.3 193203639 NP_490661.1 17510629 NC_003279.6 193203938 11498 16830 + -
6239 171592 REVIEWED NM_058261.3 133902001 NP_490662.1 17510633 NC_003279.6 193203938 17496 26780 - -
6239 171592 REVIEWED NM_058262.3 86561628 NP_490663.1 17510635 NC_003279.6 193203938 17496 26780 - -
6239 171593 REVIEWED NM_058263.3 115533565 NP_490664.2 115533566 NC_003279.6 193203938 27594 32481 - -
6239 171594 REVIEWED NM_058265.3 71995026 NP_490666.2 25143331 NC_003279.6 193203938 49918 54359 + -
6239 171595 REVIEWED NM_058267.4 115533567 NP_490668.4 115533568 NC_003279.6 193203938 55315 64020 - -
6239 171597 REVIEWED NM_058269.2 71995034 NP_490670.1 17510145 NC_003279.6 193203938 85044 86283 - -
6239 171599 REVIEWED NM_058271.6 212645149 NP_490672.2 25143337 NC_003279.6 193203938 93030 94880 + -
6239 171600 REVIEWED NM_058272.4 212645150 NP_490673.1 17510147 NC_003279.6 193203938 96478 100612 - -
-bash-3.00$ cat gene_info | grep 171590 | awk '{if ($1==6239) print $0}'
6239 171590 Y74C9A.3 Y74C9A.3 - WormBase:WBGene00022277 I - hypothetical protein protein-coding - - - - 20101017
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn