【7.2】遗传变异主要的数据库-dbSNP(单核苷酸多态性)
单核苷酸多态性(single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库,它是关于单碱基替换以及短插入、删除多态性的资源库。网址:https://www.ncbi.nlm.nih.gov/projects/SNP。
一、最新版本
人的dbsnp目前已更新到150版本 150版本基本信息
Organism | dbSNP Build | Genome Build | Number of Submissions(ss#’s) | Number of RefSNP Clusters (rs#’s) ( # validated) | Number of (rs#’s) in gene | Number of (ss#’s) with genotype | Number of (ss#’s) with frequency |
---|---|---|---|---|---|---|---|
Homo sapiens | 150 | 38.3 | 907,234,193 | 325,660,549 (107,926,145) | 191,665,918 | 73,917,935 | 130,169,906 |
下载地址:ftp://ftp.ncbi.nlm.nih.gov/snp/
二、目录结构
点击:ftp://ftp.ncbi.nlm.nih.gov/snp/ 则进入snp网址。
dbSNP包含了许多目录,其中最有用的是:
organisms/
database/
specs/
相关详细信息见 ftp://ftp.ncbi.nih.gov/snp/00readme.txt
1.FTP的“specs/”目录包含重要的文件的格式,内容及其基本介绍。
2.FTP的“organisms/”目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。(要知道,DBsnp不光包含人的数据哦,还有bacteria,tuna等物种的snp信息;人类物种ID是9606,可以看到variation位点信息有基于hg19和hg38的两种下载方式,如果还有其它需求,可以自己用基因组坐标转换工具。)
3.点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606目录,那么你会发现人类数据目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/
- ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)
- ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
- XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
- chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)
- genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
- genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)
- ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)
- rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)
chr_rpts 中的txt文件内容:
-
RefSNP id (rs#)rs代号
-
mapweight where 匹配个数
- 1 = Unmapped
- 2 = Mapped to single position in genome
- 3 = Mapped to 2 positions on a single chromosome
- 4 = Mapped to 3-10 positions in genome (possible paralog hits)
- 5 = Mapped to >10 positions in genome.
-
snp_type where snp类型
-
Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数
-
Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数
-
Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数
-
Chromosome for this hit to genome 匹配到的染色体
-
Contig accession for this hit to genome 匹配到conting 序号
-
Position of RefSNP in contig coordinates 在conting中匹配到突变的位置
-
Position of RefSNP in chromosome coordinates (used to order report)
在染色体中匹配到突变的位置
* x, a single number, indicates a feature at base position x
* x..y, denotes a feature that spans from x to y inclusive.
* x^y, denotes a feature that is inserted between bases x and y
11.Genes at this same position on the chromosome 匹配到的基因名字
12.Genotypes available in dbSNP for this RefSNP 基因型是否可知
* 1 = yes
* 0 = no
bed中包含各个染色体上的snp,如下:
-
chrom: The name of the chromosome (e.g. chr1, chr2, etc.).
-
chromStart: The Reference SNP (rs) start position on the chromosome.
Note: The first base in a chromosome is numbered 0.
- chromEnd: The rs end position on the chromosome.
Optional Fields:
-
name: The dbSNP Reference SNP (rs) ID
-
score: dbSNP does not assign a score value, so this field will always contain a 0 .
-
strand: This field defines strand orientation as either + or -.
VCF
这个是dbSNP数据库的精髓文件,需要仔细理解,内容节选如下:
#CHROM POS ID REF ALT QUAL FILTER INFO 1 948136 rs267598747 G A . . RS=267598747;RSPOS=948136;dbSNPBuildID=137;SSR=0;SAO=3;VP=0x050060000305000002100120;GENEINFO=NOC2L:26155;WGT=1;VC=SNV;PM;REF;SYN;ASP;LSD;CLNALLE=1;CLNHGVS=NC_000001.11:g.948136G>A;CLNSRC=.;CLNORIGIN=2;CLNSRCID=.;CLNSIG=1;CLNDSDB=MedGen:SNOMED_CT;CLNDSDBID=C0025202:2092003;CLNDBN=Malignant_melanoma;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000064926.2
它包含的内容:染色体,突变的位置,rs代号,突变过程,info。
其中info包含了突变是否为同义突变?突变实在coding 区还是内含子或UTR?也包含了clinvar数据库的临床意义信息,CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)还有更多解释,直接看第二章的VCF格式介绍即可。
三、查询
http://www.ncbi.nlm.nih.gov/SNP/ 是NCBI做好的一个网页版查询工具,因为下载一个 variation位点信息记录文件动辄就是十几个G,一般人也不会处理那个文件,不知道从里面应该如何提取需要的信息,这时候学习它的网页版查询工具也挺好的。
在UCSC里面也有对dbsnp数据库的介绍,主要是从数据库设计的角度来理解,里面详细介绍了每一列具体的意义,值得大家仔细学习。
- http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp146&hgta_table=snp146&hgta_doSchema=describe+table+schema
- http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp141&hgta_table=snp141&hgta_doSchema=describe+table+schema
但是如果真想从数据库语言的角度来理解,需要看它的数据库设计的schema了:很复杂:ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf
sql的代码也可以下载:
ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/
还根据gene来分genotype:ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/
四、命名
关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。 一般写法是这样: dbSNP后面跟featureID。featureID一般是rs/ss后跟7-8位数字, 比如: rs12345678或者dbSNP|rs12345678 。
最后值得一提的是,除了dbsnp对variation规定了ID号,还有几个其它偏门的ID号也可以来描述变异位点的。
NCBI的dbsnp,以rs和ss开头
illumina的kgp开头
ESP的以esp开头
kgp是illumina中华八芯片的
五、其他
有任何疑问可联系:snp-admin@ncbi.nlm.nih.gov
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn