【3.7.2】一级核酸数据库-GENCODE

一、介绍

NHGRI( National Human Genome Research Institute)于2003年9月启动了ENCODE计划(Encyclopedia Of DNA Elements),旨在发现人类基因组序列中的功能元件。随后,Sanger被授权启动GENCODE项目,旨在整合基因注释结果的整合,比如基因组每条染色体上面有哪些编码蛋白的基因,哪些假基因,哪些lncRNA的基因,它们坐标是什么,基因上面的外显子内含子坐标是什么,UTR区域坐标是什么。

在2013年,GENCODE小组也启动了小鼠基因组的注释信息的整合工作。目前,GENCODE基因信息被ENCODE和1000 Genomes等其他项目使用。2017年的时候GENCODE又获得了一批资助,用以完成小鼠基因和人类基因组功能元件的注释工作。

所以GENCODE计划目前的主要工作就是对人类和小鼠的基因组进行功能元件注释。

GENCODE 目标

  1. 提高人类基因注释结构的覆盖度和准确性,特别是蛋白编码的可变剪切突变,非编码位置和假基因等的位置。
  2. 建立老鼠基因,包含编码蛋白的可变剪切突变,有转录证据的非编码位置,假基因等。

通过比较小鼠注释的数据和人的基因注释结果可以提高注释结果的准确性。注释工作包括人工矫正,不同方法的计算分析和设计实验证明。有争议的位置会通过实验来验证。数据资源可以Ensembl和UCSC等上公开。

Version 26 (October 2016 freeze, GRCh38) - Ensembl90版本的统计数据

  • Total No of Genes:58288
  • Protein-coding genes: 19836
  • Long non-coding RNA genes: 15778
  • Small non-coding RNA genes: 7569
  • Pseudogenes: 14694
    • processed pseudogenes: 10704
    • unprocessed pseudogenes: 3469
    • unitary pseudogenes: 206
    • polymorphic pseudogenes: 63
    • pseudogenes: 18
  • Immunoglobulin/T-cell receptor gene segments
    • protein coding segments: 410
    • pseudogenes: 234
  • Total No of Transcripts: 200401
  • Protein-coding transcripts: 80930
    • full length protein-coding: 55406
    • partial length protein-coding: 25524
  • Nonsense mediated decay transcripts: 14208
  • Long non-coding RNA loci transcripts: 27908
  • Total No of distinct translations: 60172
  • Genes that have more than one distinct translations: 13546

GENCODE的注释和Ensembl注释的关系是:GENCODE注释来源于havana团队人工完成的基因注释和Ensembl计算机自动完成的基因注释的合并。所以我们查看gtf文件的时候,会发现有“HAVANA"和"ENSEMBL"这两个名称交替出现。HAVANA表示注释来自于人工。ENSEMBL表示注释来源于计算机程序的自动注释。

ENCODE的注释文件的发行版本和Ensembl是一致的,目前GENCODE中的人类gtf注释已经发布到version 29了,小鼠是发布到version 19版本了

二、数据的下载

FTP地址: ftp://ftp.ebi.ac.uk/pub/databases/gencode/

可以下载该数据库的所有资料,而且整理的非常好,自己写脚本很容易处理得到自己想要的信息。

以GENCODE v24为例,在linux系统里面用shell代码即可批量下载所有metadata数据

wget -c -r -np -k -L -A "*metadata*" ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/

再用代码检查里面的记录数:

ls *gz |while read id;do (echo -n $id;echo -n "    " ;zcat $id |wc -l ) ;done

我们看看meta data信息的记录数量,这些信息主要是GENCODE与其它主流数据库的对应关系

gencode.v24.metadata.Annotation_remark.gz    40879
gencode.v24.metadata.EntrezGene.gz    170466
gencode.v24.metadata.Exon_supporting_feature.gz    19193542
gencode.v24.metadata.Gene_source.gz    66206
gencode.v24.metadata.HGNC.gz    182831
gencode.v24.metadata.PDB.gz    94547
gencode.v24.metadata.PolyA_feature.gz    84652
gencode.v24.metadata.Pubmed_id.gz    209094
gencode.v24.metadata.RefSeq.gz    75365
gencode.v24.metadata.Selenocysteine.gz    119
gencode.v24.metadata.SwissProt.gz    45067
gencode.v24.metadata.Transcript_source.gz    217202
gencode.v24.metadata.Transcript_supporting_feature.gz    87375
gencode.v24.metadata.TrEMBL.gz    61924

还可以下载所有的gtf文件:

wget -c -r -np -nd -k -L -A "*gtf.gz" ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/

gtf文件特别重要,具体可参见第二章节数据格式的介绍。

还可以下载参考转录组及参考蛋白组,我这里还是拿hg19举例:

## ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v24lift37.transcripts.fa.gz
## ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v24lift37.lncRNA_transcripts.fa.gz
## ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v24lift37.pc_transcripts.fa.gz

其实你有gtf文件,也可以直接从参考基因组序列里面提取这个参考转录组及参考蛋白组,通常是gtf2fasta,随便搜索一下,一大堆方法。

三、常见问题

3.1 根据gtf格式的基因注释文件得到人所有基因的染色体坐标

http://www.biotrainee.com/thread-472-1-1.html

3.2 常用的一些提取信息的命令

获得基因名列表
awk '{if($3=="gene"){print $0}}' gencode.gtf

获得所有的"protein-coding transcript"行
awk '{if($3=="transcript" && $20=="\"protein_coding\";"){print $0}}' gencode.gtf

获得手动注释级别为1或2的注释结果
awk '{if($0~"level (1|2);"){print $0}}' gencode.gtf

参考资料

这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn