【1.6.4】Taxonomy 数据库

NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:

表1 Taxnomoy数据库物种数目统计表

下载文件:

https://ftp.ncbi.nih.gov/pub/taxonomy

下载gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系),gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)和taxdump.tar.gz三个文件;

taxdump.tar.gz里包含两个重要文件,即names.dmp和nodes.dmp;

names.dmp

names.dmp文件共包含4列,以“|”分割,各列描述如下:

其中tax_id即为taxonomy的记录号,name_txt即对应tax_id号的物种名称。

nodes.dmp

nodes.dmp文件共包含13列,以“|”分割,各列描述如下:

其中,物种分类注释时需要tax_id(Taxonomy记录号),parent tax_id(上一层分类级别的tax_id)和rank(该tax_id所处的分类层级)。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn