【3.8.1】一级核酸数据库-1000 GENOME

February 08, 2018 biodatabase 阅读量：次

一、简介

千人基因组计划（1000 Genomes，http://www.internationalgenome.org/ ）于2008-2015年开启的对人的基因组进行测序一个项目，目的是建立人类突变和分型的共同数据库。虽然这个项目已经结束了，EMBL-EBI的数据中心仍然获得了Wellcome Trust的基金资助来维护和扩充这个数据库。 IGSR（International Genome Sample Resource）想实现的目标：

保证公众能访问和使用1000 Genomes的数据
补充已发表的基因组其他信息
向1000 Genomes持续增加新的基因组数据

项目完成的三个阶段

阶段	目标	深度	策略	状态
1-low coverage	Assess strategy of sharing data across samples	2-4X	180个样本全基因组测序	2008年9月完成
2-trios	Assess coverage and platforms and centres	20-60X	2个母亲-父亲-孩子的家系测序	2008年10月完成
3-gene regions	Assess methods for gene-region-capture	50X	900个样本1000个基因	2009年6月完成

5个大的人种（亚洲人、欧洲人等），25个亚人种。目前，新版共有NA编号开头的1182个人，HG开头的1768个人。

它的官方网站是：有一个ppt讲得很清楚如何通过官网做的data portal来下载数据：https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

二、数据查询与下载

2.1 查询数据

千人基因组计划 – 基因组浏览器： http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

查询某个SNP的信息

http://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?rs=rs35761398
http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2501432
http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2502992

在千人基因组计划里面看一个rs就能看到各种人群信息： http://browser.1000genomes.org/Homo_sapiens/Variation/Population?r=1:24201420-24202420;v=rs2501432;vdb=variation;vf=1849472 这些人群信息，可以画一个网路图！只需要变化rs ID号即可，当然并不是所有的rs ID号都在千人基因组计划里面有显示的。

2.2 下载数据

下载地址：

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/
ftp://ftp.sanger.ac.uk/pub/1000genomes/
ftp://ftp.ebi.ac.uk/pub/databases/1000genomes/
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp

直接看最新版的数据，共有NA编号开头的1182个人，HG开头的1768个人！ ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/phase3/data/

也可以按照人种来查看这些数据：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/data/

每个人的目录下面都有四个数据文件夹

Oct 01 2014 00:00    Directory alignment
Oct 01 2014 00:00    Directory exome_alignment
Oct 01 2014 00:00    Directory high_coverage_alignment
Oct 01 2014 00:00    Directory sequence_read

这些数据实在是太丰富了！

也可以直接看最新版的vcf文件，记录了这两千多人的所有变异位点信息！可以直接看到所有的位点，具体到每个人在该位点是否变异！ ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/

不过它的基因型信息是通过MVNcall+SHAPEIT这个程序call出来的，具体原理见：http://www.ncbi.nlm.nih.gov/pubmed/23093610

而且网站还提供一些教程：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/working/

2.3 表达相关的数据

1000G项目中比较重要的表达数据：

三、讨论

1000G中的突变也在dbSNP中吗？

1000G中的SNP和插入缺失突变都提交到了dbSNP中，更长的结构突变被提交到了DGVa。 1000G的vcf文件中有一个ID列，对应的就是dbSNP的rs ID。因为方法改进，phase 3为代表最终的结果

参考资料

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn

一、简介

二、数据查询与下载

2.1 查询数据

2.2 下载数据

2.3 表达相关的数据

1. 465个个体（包括种群：CEU, TSI, GBR, FIN, YRI)的RNAseq数据（mRNA和miRNA）

2. 60个CEU个个体RNAseq

3. 800 HapMap个体的表达芯片

4.69个YRI个体的RNAseq数据

三、讨论

参考资料