【5.2】blast数据库知多少

在公司,我自诩自己是"blast的砖家",可是那边大Boss让我处理一批很短的蛋白序列,需要Human的Refseq序列的时候,我就真真的傻逼了

在本地化blast选择数据库的时候,我当时就傻眼了,这么多库,每个库都是啥意思啊,我该选择哪个库来完成我的工作,这个问题在我之前的博客中已经解决。而随着对blast的使用,有产生了一个新的问题,牛逼哄哄的nr的数据库到底算是核酸还是蛋白的数据库呢?

一 Nr数据库

non-redundant protein sequence database with entries from **GenPept**, **Swissprot**, **PIR**, PDF, PDB,and **NCBI RefSeq** nt库:nucleotide sequence database, with entries from all traditional divisions of GenBank,  EMBL, and DDBJ excluding bulk divisions (gss, sts, pat, est, and htg divisions. wgs entries are also excluded. Not non-redundant.

在本地化blast选择数据库的时候,我当时就傻眼了,这么多库,每个库都是啥意思啊,我该选择哪个库来完成我的工作,这个问题在我之前的博客中已经解决。而随着对balst的使用,有产生了一个新的问题,牛逼哄哄的nr的数据库到底算是核酸还是蛋白的数据库呢?

从blast官网给出的上面的截图可以看出,nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列,nr中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。

GenBank

RefSeq

UniProt

总结

简单的说,GenBank是核苷酸数据库,RefSeq是基因数据库,UniProt是蛋白质数据库。他们之间无疑有着很深的联系,但区别在于数据库系统,形式,和范围。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学