【1.6.4】Taxonomy 数据库
NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:
表1 Taxnomoy数据库物种数目统计表
下载文件:
https://ftp.ncbi.nih.gov/pub/taxonomy
下载gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系),gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)和taxdump.tar.gz三个文件;
taxdump.tar.gz里包含两个重要文件,即names.dmp和nodes.dmp;
names.dmp
names.dmp文件共包含4列,以“|”分割,各列描述如下:
其中tax_id即为taxonomy的记录号,name_txt即对应tax_id号的物种名称。
nodes.dmp
nodes.dmp文件共包含13列,以“|”分割,各列描述如下:
其中,物种分类注释时需要tax_id(Taxonomy记录号),parent tax_id(上一层分类级别的tax_id)和rank(该tax_id所处的分类层级)。
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn