【1.1】常用数据库ID表示方式

虽然有综合性的数据库收集整理了百余种ID,使得它们之间的对应及转换得以顺利进行,但大部分数据分析过程中并不会用到所有的数据ID,最常见的如下表。

常用数据库 ID

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID

一、Ensembl stable IDs

Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.

常用物种前缀

前缀 学名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

类型前缀

前缀 类型
E exon
FM Ensembl protein family
G gene
GT gene tree
P protein
R regulatory feature
T transcript

二、UniProt

UniProt 中录入的数据都被分配了一个唯一的 entry name.

UniProtKB/Swiss-Prot entry name UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 “XY” 的形式, 其中 “X” 是最多五个便于记忆的蛋白质编号, “” 是下划线, “Y” 是最多五个便于记忆的物种编号.

蛋白质编号示例如下:

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

物种编号示例如下:

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)
HUGO Gene Nomenclature Committee

UniProtKB/TrEMBL entry name

UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 “XY” 的形式, 其中 “X” 是 6 到 10 个字符组成的 accession number, “” 是下划线, “Y” 是最多五个便于记忆的物种编号.

Accession Number

UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}

实际上, accession number 是三种类型:

1 2 3 4 5 6 7 8 9 10
[O P Q] [0-9] [A-Z 0-9] [A-Z 0-9] [A-Z 0-9] [0-9]
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]

如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.

三 HUGO Gene Nomenclature Committee

Gene Symbol

Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母。如:

  • GLA “galactosidase, alpha”;
  • GLB “galactosidase, beta”;
  • UGT1A1 “UDP glycosyltransferase 1 family, polypeptide A1” 再到 UGT1A13 代表了 13 个不同的 gene symbol.

四、NCBI

GenBank Accession Number:GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.

RefSeq Accession Number:RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.

Accession 前缀 类型 说明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGS
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence
NZ_ Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model
XR_ RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession
ZP_ Protein Predicted model, annotated on NZ_ genomic records

WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.

五、Entrez ID

GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)(参考链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013746/)

Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。可以直接搜索。

gene_id symbol chromosome
352937 dio2 20

上表中geneid即为 Entrezid. 在ID转换中有重要的作用。

Ensembl_gene_identifier就是所谓的ENTREZ_GENE_ID, 即Ensembl ID里的一种, Enseml ID包括exon, protein family, gene, gene tree, protein, regulatory feature 和 transcript.

Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)

第一部分ENS代表这是一个Ensembl ID
第二部分代表物种, 如MUS代表小鼠(如果物种是人则此处为空)
第三部分代表ID的类型, 如G代表基因, T代表转录本, P代表蛋白, E代表外显子, S代表
第四部分是一个特殊的数字标志
第五部分代表版本号

如:ENSMUSG00000017167.6

我们知道这是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).

参考链接:http://www.ensembl.org/Help/Faq?id=488

六、UCSC ID

UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号。如: uc010qfk.3, uc010qfk.3.这个ID几乎被抛弃不用了,只是因为UCSC是三大数据库之一而已。

七、UniGene

UniGene_cluster代表UNIGene数据库的条目 每一个UniGene Cluster包含代表单一基因的mRNA和EST序列, 包括基因表达的组织类型和图谱定位信息. 其格式为(species).(cluster ID number) 如Hs.437460

参考链接:https://www.ncbi.nlm.nih.gov/Uni … ID=9606&SEARCH=TP53

八、ID 转换

最重要的就是怎么实现ID转换。常用的id有entrez gene ID, HUGO symbol, refseq ID, ensembl ID。他们之间进行转换,做一些后续的分析。一般初学者用的ID转换的工具就是DAVID,R里面关于ID转换常用的包为org.Hs.eg.db这一类的包。 在生信技能树论坛里,健明发的《ID转换大全》和《生信人必须了解的各种ID表示方式》以及《生信编程直播第8题-几个ID转换咯》里面有实战的代码,务必运行一遍。在论坛直接搜索即可。

方法1:直接在DAVID网站,粘贴转换

方法2:用R包。不管是什么ID转换,都是找到对应关系,然后match一下即可!–《生信编程直播第8题-几个ID转换咯》有完整代码

方法3:用R包,基于org.Xx.eg.db系列包,进行ID转换。–《ID转换大全》由完整代码

总之:

entrez gene ID 文盲不会写汉字,只能运用纯数字
Ensembl ID 有文化,身前物种做玉坠
refseq ID最懒惰,一躺在中间,字母在两边
Gene Symbol大写字母加数字,一生平庸最常见

直达车:

http://www.biotrainee.com/thread-941-1-1.html

http://www.biotrainee.com/thread-862-1-1.html

九、参考基因组版本

不同版本对应关系

hg19,GRCH37和ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。

hg系列,hg18/19/38来自UCSC也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。

基因组各种版本对应关系综合来看如下所示:

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。

看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!

Feb 13 2014 00:00    Directory April_14_2003
Apr 06 2006 00:00    Directory BUILD.33
Apr 06 2006 00:00    Directory BUILD.34.1
Apr 06 2006 00:00    Directory BUILD.34.2
Apr 06 2006 00:00    Directory BUILD.34.3
Apr 06 2006 00:00    Directory BUILD.35.1
Aug 03 2009 00:00    Directory BUILD.36.1
Aug 03 2009 00:00    Directory BUILD.36.2
Sep 04 2012 00:00    Directory BUILD.36.3
Jun 30 2011 00:00    Directory BUILD.37.1
Sep 07 2011 00:00    Directory BUILD.37.2
Dec 12 2012 00:00    Directory BUILD.37.3

从上面可以看到,有37.1, 37.2和 37.3 等等,不过这种版本一般指的是注释在更新而基因组序列一般不变。

总之你需要记住, hg19基因组大小是3G,压缩后八九百兆

如果要下载GTF注释文件,基因组版本尤为重要。

NCBI:最新版(hg38) {-}
NCBI:其它版本 {-}
Ensembl {-}

变化上面链接中的release就可以拿到所有版本信息

UCSC {-}

它本身需要一系列参数:

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables
2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser
3. Click 'get output'.

搞清楚版本关系了,接下来就是进行下载。UCSC里面下载非常方便,只需要根据基因组简称来拼接url:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号

for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta

其他

  1. tax_id代表物种的id, 如人类是9606

参考链接:https://www.ncbi.nlm.nih.gov/Tax … x.cgi?lvl=0&id=9606

参考资料

http://www.biotrainee.com/thread-411-1-1.html

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学