【3.8.1】一级核酸数据库-1000 GENOME

一、简介

千人基因组计划(1000 Genomes,http://www.internationalgenome.org/ )于2008-2015年开启的对人的基因组进行测序一个项目,目的是建立人类突变和分型的共同数据库。虽然这个项目已经结束了,EMBL-EBI的数据中心仍然获得了Wellcome Trust的基金资助来维护和扩充这个数据库。 IGSR(International Genome Sample Resource)想实现的目标:

  • 保证公众能访问和使用1000 Genomes的数据
  • 补充已发表的基因组其他信息
  • 向1000 Genomes持续增加新的基因组数据

项目完成的三个阶段

阶段 目标 深度 策略 状态
1-low coverage Assess strategy of sharing data across samples 2-4X 180个样本全基因组测序 2008年9月完成
2-trios Assess coverage and platforms and centres 20-60X 2个母亲-父亲-孩子的家系测序 2008年10月完成
3-gene regions Assess methods for gene-region-capture 50X 900个样本1000个基因 2009年6月完成

5个大的人种(亚洲人、欧洲人等),25个亚人种。目前,新版共有NA编号开头的1182个人,HG开头的1768个人。

它的官方网站是:有一个ppt讲得很清楚如何通过官网做的data portal来下载数据:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

二、数据查询与下载

2.1 查询数据

千人基因组计划 – 基因组浏览器: http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

查询某个SNP的信息

http://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?rs=rs35761398
http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2501432
http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2502992

在千人基因组计划里面看一个rs就能看到各种人群信息: http://browser.1000genomes.org/Homo_sapiens/Variation/Population?r=1:24201420-24202420;v=rs2501432;vdb=variation;vf=1849472 这些人群信息,可以画一个网路图! 只需要变化rs ID号即可,当然并不是所有的rs ID号都在千人基因组计划里面有显示的。

2.2 下载数据

下载地址:

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/
ftp://ftp.sanger.ac.uk/pub/1000genomes/
ftp://ftp.ebi.ac.uk/pub/databases/1000genomes/
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp

直接看最新版的数据,共有NA编号开头的1182个人,HG开头的1768个人! ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/phase3/data/

也可以按照人种来查看这些数据:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/data/

每个人的目录下面都有 四个数据文件夹

Oct 01 2014 00:00    Directory alignment
Oct 01 2014 00:00    Directory exome_alignment
Oct 01 2014 00:00    Directory high_coverage_alignment
Oct 01 2014 00:00    Directory sequence_read

这些数据实在是太丰富了!

也可以直接看最新版的vcf文件,记录了这两千多人的所有变异位点信息! 可以直接看到所有的位点,具体到每个人在该位点是否变异! ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/

不过它的基因型信息是通过MVNcall+SHAPEIT这个程序call出来的,具体原理见:http://www.ncbi.nlm.nih.gov/pubmed/23093610

而且网站还提供一些教程:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/working/

2.3 表达相关的数据

1000G项目中比较重要的表达数据:

1. 465个个体(包括种群:CEU, TSI, GBR, FIN, YRI)的RNAseq数据(mRNA和miRNA)

http://www.geuvadis.org

http://www.ebi.ac.uk/arrayexpress/experiments/E-GEUV-1/samples.html

http://www.ebi.ac.uk/arrayexpress/experiments/E-GEUV-2/samples.html

2. 60个CEU个个体RNAseq

http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-197

3. 800 HapMap个体的表达芯片

http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-198

http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-264

4.69个YRI个体的RNAseq数据

http://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-19480

三、讨论

  1. 1000G中的突变也在dbSNP中吗?

1000G中的SNP和插入缺失突变都提交到了dbSNP中,更长的结构突变被提交到了DGVa。 1000G的vcf文件中有一个ID列,对应的就是dbSNP的rs ID。 因为方法改进,phase 3为代表最终的结果

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn