【4.2】RefSeq数据库

NCBI RefSeq (Reference Sequence,美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。

  • 全面的,整合的,无冗余的序列
  • 基因组DNA,RNA,蛋白产物
  • 是医学、功能、多样性研究的一个基准
  • 为基因组注释,基因鉴定和特性描述,突变和多态性分析,表达研究和比较分析提供稳定可靠的参考
  • 由NCBI和其合作者维护
Proteins Transcripts Organisms
88,385,530 19,634,664 71,356

– 最新数据截止2017年7月21日

由于一些序列来自异常连接产生的转录物或由计算机推演产生的不正确内含子-外显子剪切,因此该数据库所收集的参考序列一直在不断地被修改中,尽管如此,NCBI RefSeq 仍是目前最可信赖的人类基因mRNA序列数据库。

一、命名

RefSeq一般的命名格式:前缀为两个字母,然后下横线(’_‘)。区别于其它的GenBank的命名格式。

Model RefSeq: XM_ (mRNA), XR_ (non-coding RNA), and XP_ (protein) 这个是首先被提交的
Known RefSeq: NM_ (mRNA), NR_ (non-coding RNA), or NP_ (protein)  代表被人工检验过
  1. 在Comment区域显示来源,说明数据可靠性。(GENOME ANNOTATION,INFERRED,MODEL, PREDICTED,PROVISIONAL,WGS REVIEWED,VALIDATED)
  2. 蛋白序列在DBSOURCE区域标示 ‘REFSEQ’

blast结果中序列名的含义

blast一般返回的结果序列开头的格式都如正下面所示:

gi|4557284|ref|NM_000646.1|[4557284]

格式说明:

  1. gi :”GenBank Identifier的缩写”, 是序列的ID号,标识符。唯一的。
  2. 4557284 就是该序列的gi号
  3. ref :标示该序列是参考序列。
  4. NM_000646.1 该序列的Accession号和版本号

预测的,临时的,和检查过的RefSeq记录有什么区别?

RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。

  1. 检查过的RefSeq记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。

  2. 预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。

  3. 临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的。

二、如何访问RefSeq

  1. BLAST

http://blast.ncbi.nlm.nih.gov/blast/

将序列跟已经注释的序列比对,寻找序列之间的差异

  1. Clinical Remap

www.ncbi.nlm.nih.gov/genome/tools/remap

比较重新组织的序列跟RefSeqGene序列之间的差异

  1. Variation Reporter

http://www.ncbi.nlm.nih.gov/variation/tools/reporter/

报到突变跟RefSeq序列的关系

  1. 其他会检索RefSeq库的工具

mapview https://www.ncbi.nlm.nih.gov/mapview/

ENTREZ GENE https://www.ncbi.nlm.nih.gov/gene

ENTREZ GENOMES DIVISION https://www.ncbi.nlm.nih.gov/genome

  1. 数据下载

下载地址:ftp://ftp.ncbi.nlm.nih.gov/refseq/

其它物种: ftp://ftp.ncbi.nlm.nih.gov/refseq/release/

三、讨论

  1. RefSeq和genbank的数据有什么区别?

genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。 而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

  1. 为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?

RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息

参考资料

http://www.ncbi.nlm.nih.gov/refseq/

http://liucheng.name/379/

http://yangl.net/2015/10/08/ncbi_refseq/

http://yangl.net/2015/10/08/ncbi-refseq-name-format/

http://www.biotrainee.com/thread-213-1-1.html

https://www.ncbi.nlm.nih.gov/books/NBK21091/

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/presentations/RefSeqGene.pptx

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学