【4.2】RefSeq数据库

NCBI RefSeq (Reference Sequence,美国国立生物技术信息中心参考序列库),即RefSeq参考序列数据库,提供的具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库。RefSeq的序列数据来源于大名鼎鼎的INSDC(International Nucleotide Sequence Database Collaboration,国际核苷酸序列数据库联盟),是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。

  • 全面的,整合的,无冗余的序列
  • 基因组DNA,RNA,蛋白产物
  • 是医学、功能、多样性研究的一个基准
  • 为基因组注释,基因鉴定和特性描述,突变和多态性分析,表达研究和比较分析提供稳定可靠的参考
  • 由NCBI和其合作者维护
Proteins Transcripts Organisms
88,385,530 19,634,664 71,356
– 最新数据截止2017年7月21日

由于一些序列来自异常连接产生的转录物或由计算机推演产生的不正确内含子-外显子剪切,因此该数据库所收集的参考序列一直在不断地被修改中,尽管如此,NCBI RefSeq 仍是目前最可信赖的人类基因mRNA序列数据库。

一、命名

RefSeq一般的命名格式:前缀为两个字母,然后下横线('_')。区别于其它的GenBank的命名格式。

Model RefSeq: XM_ (mRNA), XR_ (non-coding RNA), and XP_ (protein) 这个是首先被提交的
Known RefSeq: NM_ (mRNA), NR_ (non-coding RNA), or NP_ (protein)  代表被人工检验过
  1. 在Comment区域显示来源,说明数据可靠性。(GENOME ANNOTATION,INFERRED,MODEL, PREDICTED,PROVISIONAL,WGS REVIEWED,VALIDATED)
  2. 蛋白序列在DBSOURCE区域标示 ‘REFSEQ’

ID的常见前缀是

前缀 类型 说明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NW_ Genomic Contig or scaffold, primarily WGS
NZ_ Genomic Complete genomes and unfinished WGS data
NM_ mRNA Protein-coding transcripts (usually curated)
NR_ RNA Non-protein-coding transcripts
NP_ Protein Associated with an NM_ or NC_ accession
其它

同时,RefSeq的数据是每日更新的,所以大大的保障了我们科研的效率和及时性!对于人类的RefSeq而言,每条RefSeq后面都会有一个COMMENT,COMMENT会显示这条RefSeq的状态。主要有这些状态:

  • MODEL(说明是自动被NCBI提供的,没有被审核过)
  • INFERRED(由序列分析预测得到,没有经过实验验证)
  • PREDICTED(没有经过人工审核)
  • PROVISIONAL,REVIEWED(已被人工审核)
  • VALIDATED(已经过初步审查,但还没有过最后审查)以及WGS。 所以我们在用RefSeq的序列时也要注意看看它的Status哟,看它是否是经过审核的!

二、如何访问RefSeq

2.1 BLAST

http://blast.ncbi.nlm.nih.gov/blast/

将序列跟已经注释的序列比对,寻找序列之间的差异

2.2 Clinical Remap

www.ncbi.nlm.nih.gov/genome/tools/remap

比较重新组织的序列跟RefSeqGene序列之间的差异

2.3 Variation Reporter

http://www.ncbi.nlm.nih.gov/variation/tools/reporter/

报到突变跟RefSeq序列的关系

2.4 其他会检索RefSeq库的工具

mapview https://www.ncbi.nlm.nih.gov/mapview/

ENTREZ GENE https://www.ncbi.nlm.nih.gov/gene

ENTREZ GENOMES DIVISION https://www.ncbi.nlm.nih.gov/genome

2.5 数据下载

下载地址:ftp://ftp.ncbi.nlm.nih.gov/refseq/

其它物种: ftp://ftp.ncbi.nlm.nih.gov/refseq/release/

三、讨论

3.1 RefSeq和genbank的数据有什么区别?

genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。 而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。

refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

3.2 为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?

RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息

3.3. blast结果中序列名的含义

blast一般返回的结果序列开头的格式都如正下面所示:

gi|4557284|ref|NM_000646.1|[4557284]

格式说明:

  1. gi :”GenBank Identifier的缩写”, 是序列的ID号,标识符。唯一的。
  2. 4557284 就是该序列的gi号
  3. ref :标示该序列是参考序列。
  4. NM_000646.1 该序列的Accession号和版本号

3.4 预测的,临时的,和检查过的RefSeq记录有什么区别?

RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。

  1. 检查过的RefSeq记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。
  2. 预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。
  3. 临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的。

RefSeq记录通过以下步骤创建:

  1. 确定代表不同基因的序列
  2. 建立正确的基因名字到登录号的联系
  3. 确定完整范围的可以获得的序列数据
  4. 创建一个新的处于三种状态之一的参考序列(RefSeq)记录

3.5 其他

RefSeqLocusLink是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn