blast数据库知多少

在公司,我自诩自己是”blast的砖家”,可是那边大Boss让我处理一批很短的蛋白序列,需要Human的Refseq序列的时候,我就真真的傻逼了

在本地化blast选择数据库的时候,我当时就傻眼了,这么多库,每个库都是啥意思啊,我该选择哪个库来完成我的工作,这个问题在我之前的博客中已经解决。而随着对blast的使用,有产生了一个新的问题,牛逼哄哄的nr的数据库到底算是核酸还是蛋白的数据库呢?

一 Nr数据库

non-redundant protein sequence database with entries from GenPept, Swissprot, PIR, PDF, PDB,and NCBI RefSeq

nt库:nucleotide sequence database, with entries from all traditional divisions of GenBank,  EMBL, and DDBJ excluding bulk divisions (gss, sts, pat, est, and htg divisions. wgs entries are also excluded. Not non-redundant.

在本地化blast选择数据库的时候,我当时就傻眼了,这么多库,每个库都是啥意思啊,我该选择哪个库来完成我的工作,这个问题在我之前的博客中已经解决。而随着对balst的使用,有产生了一个新的问题,牛逼哄哄的nr的数据库到底算是核酸还是蛋白的数据库呢?

从blast官网给出的上面的截图可以看出,nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列,nr中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。

二、GenBank

GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区CDS)特征的注释,还包括氨基

酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

完整的GenBank数据库包括序列文件索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。

目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。[链接1.2.3.1.1-1]。

序列条目的关键字包括LOCUS (代码),DEFINITION (说明),ACCESSION (编号),NID符(核酸标识),KEYWORDS (关\键词),SOURCE (数据来源),REFERENCE (文献),FEATURES (特性表),BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID。

LOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。

ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。

KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中环氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位,如本例人、真核生物等等(详见图4.1)。

REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目)及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。

FEATURES (特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon 9606),以及蛋白质序列数据库(PID:g181254)。

序列中各部分的位置都在表中标明,5’非编码区(1-97),编码区(98-1912),3’非编码区(1913-3387),多聚腺苷酸重复区域(3367-3374),等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然,这个例子只是特性表的部分注释信息,但已经足以说明其详细程度。接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,1032个T。ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。

三、 RefSeq

refseq_genomic  :NCBI genomic reference sequences

refseq_protein:NCBI protein reference sequences

RefSeqLocusLink是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。

GenBank是一个公共可获得的序列记录备份,由数据发现者提供,它不是一个校正的数据库。
GenBank记录提交者保有对他们记录的编辑权并可以决定使用那个基因符号。有些作者同相关物种命名委员会讨论,从那里得到他们测序基因的那个物种的官方基因符号。其他作者可能没有那么做。因此,那有可能一个基因的GenBank记录会使用不同的基于符号。

RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,但RefSeq和GenBank是分开的数据库,而且两者都是可以通过在Entrez nucleotide中输入各自的ACCESSION获得。开始时临时的RefSeq记录与GenBank记录非常相似。但是,当RefSeq记录被专家review以后,新增的序列数据、生物学注解、和参考文献常被加入。那时,RefSeq条目(即序列)代表一个来自不同实验室的综合信息,这时二者可以非常不同。

GenBank是一个多种序列的存储池,对每个基因都含有许多序列。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。

RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。

RefSeq记录通过以下步骤创建:

1、确定代表不同基因的序列
2、建立正确的基因名字到登录号的联系
3、确定完整范围的可以获得的序列数据
4、创建一个新的处于三种状态之一的参考序列(RefSeq)记录

为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?RefSeq全部使用官方基因符号。而GenBank 是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。

四、UniProt

UniProt三大蛋白数据库的整合体 美国国家人类基因组研究院(National Human Genome Research Institute ,NHGRI)
与美国国家卫生研究院的(NIH)其它5家研究中心和研究院于10月23日宣布,将资助建立一个统一的蛋白数据库(Unified Protein Database),缩写为UniProt。未来3年内,NIH将共投资1500万美元资助该计划。目前,世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库,NHGRI的项目主任Peter Good介绍说。

但由于编辑详细蛋白结构数据库时间紧迫,再加上资金短缺,SWISS-PROT无法跟上基因组学飞速前进的步伐,Good说。这种形势导致了TrEMBL的产生,这是计算机注释的SWISS-PROT分支数据库,目的是暂时储存日益增多的蛋白质结构信息。另外,美国的蛋白信息资源(Protein Information Resource,PIR)也独立编辑其自己的数据库。现在,这三个计划的领导人将展开合作,将三大数据库合并为一个。联合起来的力量将“减少重复工作,由此也可以节省不必要的费用。”SWISS-PROT的领导人、英国剑桥欧洲生物信息研究院的Rolf Apweiler说道。Apweiler表示,UniProt将是

SWISS-PROT、TrEMBL和PIR三大数据库的最佳整合。他期望着这个蛋白数据库能够于2003年底上网。未来的网址为
www.uniprot.org。

swissprot.tar.gz       | swiss-prot sequence databases (last major update), its parent database is nr.

“这个计划来的正是时候。”波士顿Dana-Farber癌症研究院的结构生物学家Jia-huai Wang称赞道。测序者们已经产生了大量蛋白信息,但只有少数蛋白的结构被破译。“有了这样一个综合可靠的数据库,科学家就可以更为准确地根据相关蛋白的信息来预测其它蛋白质的结构和功能。”Wang说。

一个集中化的数据库十分重要,密歇根大学的肿瘤学家Samir Hanash对此表示同意。他同时也是人类蛋白组组织(Human Proteome Organisation)的主席。然而,Hanash提醒说,UniProt只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息,他说。(2002年)

 

目前,欧洲生物信息学研究所EBI 将上述3个蛋白质数据库(即PIR 、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白

质数据仓库UniProt(Universal Protein Resource,http://www.ebi.ac.uk/uniprot/index.html)。 UniProt包含3个部分:
(1)UniProt Knowledgebase(UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;
(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。

蛋白质分析数据库(uniprot):对uniprot蛋白数据库,包括其数据和序列格式,检索工具以及一些免费工具做出详细的介绍。

总结:

简单的说,GenBank是核苷酸数据库,RefSeq是基因数据库,UniProt是蛋白质数据库。他们之间无疑有着很深的联系,但区别在于数据库系统,形式,和范围。

参考资料:

blast官网

云之南 http://fhqdddddd.blog.163.com/blog/static/18699154201001951927235/

http://baike.baidu.com/view/923000.html
http://www.biosino.org/pages/ncbi-10.htm
http://www.chinainfo.gov.cn/data/200210/1_20021030_47037.html
http://blog.bioon.com/user1/6430/archives/2006/86074.shtml

http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/CharpterFour/4.3.htm

发表评论

电子邮件地址不会被公开。 必填项已用*标注