【8.2】其他数据库-KEGG(京都基因与基因组百科全书)

通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行为最终生成一个成品,或者对细胞有某种改变。主要有三大类通路:

  • 一个就是metabolic pathway,这像有原材料,一步一步加工编程一个产品;
  • Gene regulation pathways,就像product manager一样,根据外界的情况来调节哪些基因多表达一些或则少表达一些;
  • sigal transduction pathways;信号转导通路,包括像sales manager一样把市场的信息反馈到生产里,把这个信息一步一步地从product manager传到supply manager,再传到工人中。

比较大的Pathway databases 有kegg pathway ,biocarta,bioCyc,Protein analysis through evolutionary relationships(PANTHER)。

一、基本概念

Pathway Interacion database,reactome.KEGG pathway也是一个hierarchical的结构化格式,包括几大类,首先是代谢,后面是Genetic information processin, environmental information processing,cellular process,human diseases等。它最早主要是做代谢的通路,所以是KEGG里面最为完善的一类。如果看代谢通路的话,又细分几大类,比如carbohydrate,它的下面有细分很多类。

长方形的主要是基因的产物,主要包括一些蛋白,还有一些RNA,圆圈显示的就是原材料或者中间产物,每个pathway都不是独立存在的,会链接到别的pathway,在这里也有显示。里面的关系比较重要,这些关系分为了好几类,一类是蛋白之间的相互作用,对磷酸化,泛素话有明定义,但不同,

基因表达之间的关系包括通过一个中间产物的表达的调控,包括表达和抑制,包括还有直接的表达调控还有间接的表达调控。酶和酶的最用是通过两个连续的反应的两个步骤来定义的。

KEGG pathway也是一个结构文件,每一个entry它的名字,description它所设计到的module和molecular都有明确的定义。它的格式是KGML的格式。

每个PATHWAY有它的名字,是哪一个物种,它所设计到的反应和不同蛋白之间的关系。另外还有一级叫graphics,就是图形文件,就像我们看到的图形文件,它存储是通过把图形文件里面每个分子的x和y的坐标,它是哪一种类型,图形的长度和颜色,在电脑里都可以方便的定义。KGML文件和XML文件非常相似,每个PATHWAY是这样的一个格式。

二、案例

KEGG,全称京都基因与基因组百科全书(http://www.genome.jp/kegg)。它是关于基因、 蛋白质、生化反应以及通路的综合生物信息数据库。由多个子库构成(图 1)。

以上都是 KEGG 的子数据库,可以说包罗万象,不愧是百科全书。这些子库中,KEGG PATHWAY 数据库包含了大量物种的代谢与生物信号传导通路信息。Pathway 数据库下又分 为 7 个部分:1)Metabolism,2)Genetic Information Processing,3)Environmental Information Processing,4)Cellular Processes,5)Organismal Systems,6)Human Diseases,7)Drug Development。 其中 Metabolism 代谢通路这部分,又具体分为几个专题:1)Global/overview,2)Carbohydrate, 3)Energy,4)Lipid,5)Nucleotide,6)Amino acid,7)Other amino,8)Glycan,9)Cofactor/vitamin, 10)Terpenoid/PK,11)Other secondary metabolite,12)Xenobiotics,13)Chemical structure。

我们选择 Global/overview 总图这个专题点击查看。这时就会出现一张线路板一样的图 (图 2)。图中有一个圆圈。我们把显示比例调成 100%。放大这个圆圈看一下(图 3)。我们 看到这个圈的名字是 TCA 循环,也就是三羧酸循环。这个图上的每一个圆点儿代表一个化 合物,把鼠标放在某一个点上,会出现化合物的分子式,点击可进入相应数据库查看详细。 图上的每一条线代表一个生化反应。把鼠标放到三羧酸循环的名字上,可以看到一个更加详 细的通路图,我们点击这个名字。得到三羧酸循环详细的通路图(图 4)。其中圆圈是化合 物,箭头代表反应及反映方向。方块中的是酶。虚箭头指向其他途径,中间过程省略没有列 出。当点击某一个酶的时候会直接进入 KO 数据库。KO 是 KEGG 中的一个“专有名词”, 表示蛋白质或者说酶的一个分类体系。序列高度相似,并且在同一条通路上有相似功能的蛋 白质被归为一组,然后打上一个 KO 标签。从对应的 KO 数据库记录中可以查看当前这个酶的定义,酶学命名,参与途径,功能,结构等信息。KO 数据库记录的下面是这个酶在 KEGG 酶库里的信息。以及该酶所参与的化学反应在反应库里的信息。

接下来我们看一下 Toll 样受体的信号传导通路。它位于 KEGG Pathway 数据库里的 Organismal Systems 部分的 Immune system 专题里。图 4 是人的各种 Toll 样受体信号传导通路 图。可以看到在细胞膜和内质网上,有很多种 Toll 样受体。它们识别了不同的入侵物后, 激活下游蛋白,一个接一个的传递信号,直至产生各种细胞因子,激发炎性反应。如果点击其中的 Toll 样受体 4,可以看到这个蛋白质的详细信息,包括它参与的各种 Pathway。此外, 还有该蛋白可引发的疾病信息,并且可以链接到 KEGG 人类疾病数据库。此外,数据库记 录里还提供了两个相关的 Drug,其中一个 Drug 叫 Eritoran(图 5)。它是 Toll 样受体 4 的拮 抗剂。因为它长得和 Toll 样受体 4 的激动剂 LPS 脂多糖很像,所以可以被 Toll 样受体 4 捕 获。但是因为它又比激动剂 LPS 少了两条链,所以 Toll 样受体 4 捕获它之后不能激活下游 的信号传导,从而使 Toll 样受体 4 丧失免疫功能。这种药可以用于 Toll 样受体 4 引发的自 身免疫疾病的治疗。

三、讨论

现在kegg有两个比较大的缺点:

  1. 注释源问题,它只提到由相关专家收集整理而成,没有参考文献等来源信息;
  2. 授权问题,由于它授权过于严格,Bioconductor已经无法继续支持它,转而开始使用更加开源的Reatcome数据库

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn