【1.1】什么是生物信息学

下面的内容来自 山东大学 巩晶老师课件。我个人很喜欢,内容整理如下:

一、生信的起源

这里我们将生物学的起点定在 19 世纪的拉马克,将计算机科学的起点定在 17 世纪的帕 斯卡。拉马克的“用进废退”和“获得性遗传”理论大家应该并不陌生。他主张经常使用的 器官会发达,不使用的会退化,比如鼹鼠整天呆在地底下挖洞,所以它的眼睛比较瞎,哺乳 动物比如猫因为要吃老鼠,所以就长出了尖牙利齿,而鸟因为是将食物直接吞下不用嚼,所 以嘴里没有牙。而且拉马克认为这些后天获得的性状是可以遗传给下一代的。虽然拉马克主 义后来被达尔文主义所取代,但是这并不能磨灭他的伟大。他是第一个提出进化理论的人! 是生物学伟大的奠基人之一!是进化论的倡导者和先驱!

计算机这边的开场人物是帕斯卡。提到帕斯卡,就要提三件事:压强,三角和计算机。 压强单位"帕"就是为了纪念法国物理学家帕斯卡而命名。至于帕斯卡三角在咱们中国叫做杨 辉三角或贾宪三角。而且,帕斯卡三角比杨辉三角晚了近 400 年,比贾宪三角晚了近 600 年。 最后,为什么说计算机这边要从帕斯卡开场呢,是因为 19 岁的帕斯卡发明了人类有史以来 第一台机械计算机。

我们再往前迈一步。生物学这边拉马克之后就是达尔文。计算机科学这边帕斯卡之后是莱 布尼茨。达尔文《物种起源》一书中提出的进化论观点,相信你已经背的滚瓜烂熟了,似乎 从小学就在讲优胜略汰,适者生存,自然选择,不可抗拒。更有伟大的马克思主义创始人之 一恩格斯将"进化论"列为十九世纪自然科学的三大发现之一,对人类有杰出的贡献!

莱布尼茨是德国最重要的数学家、物理学家、历史学家和哲学家,和牛顿同为微积分的 创建人。他的研究成果还遍及力学、逻辑学、化学、地理学、植物学、动物学、解剖学、地 质学、航海学、气体学、语言学、法学、外交学等等。他还是最早研究中国文化和中国哲学 的德国人。并且,他在中国八卦图的影响和启发下发明了二进制。如果让阳爻为 1,阴爻为 0,那么八卦中的坤,艮,坎,巽,震,离,兑,乾,就对应二进制中的 000,001,010,011, 100,101,110,111。莱布尼茨认为:数理逻辑、数学和计算机三者均出于一个统一的目的, 即人的思维过程的演算化、计算机化、以至于在计算机上实现。所以说莱布尼茨是首次提出 “计算机”这个概念的人。

再继续往前走,孟德尔三大遗传定律出现让生物学向前迈出了一大步,而莫尔斯发明的 电报让信息传播进入了新纪元。早在 1866 年孟德尔就已经提出了遗传因子、显性性状和隐 性性状等重要概念,并阐明其遗传规律。但是直到 34 年后,也就是孟德尔去世 16 年之后, 孟德尔定律才被世人认可。造成这一结果的原因一是孟德尔没有高水平论文的发表。二是他 遇人不淑,择友不慎。内阁里让孟德尔拿山柳菊验证,可那个时候大家不知道山柳菊是无性 生殖的植物!今天我们说孟德尔是遗传学的奠基人,现代遗传学之父。

与孟德尔同一时期的莫尔斯,于 1844 年在美国国会议事厅里发出了世界上第一封电报。 1858 年,横跨大西洋连接欧美两洲的海底电缆铺设成功。到清光绪年间,有线电报进入中 国。可以说有线电报的发明是人类历史上信息传递的一次飞跃。

在孟德尔之后,生物 学的发展突飞猛进。从瑞士人米歇尔分离出核酸,到丹麦的约翰森首次提出基因一词,再到 美国的摩尔根在果蝇中发现染色体,只经历的短短的半个世纪。摩尔根因创立了染色体遗传 理论而获得了 1933 年的诺贝尔奖,是现代实验生物学的奠基人!到 20 世纪中,生物学和计 算机科学又同时放光。

生物学这边,在基因,染色体这些新词汇面世之后不久,美国的三位科学家通过实验证 明基因和染色体是由 DNA 构成的,DNA 是生物的遗传物质。同一时期,计算机科学出现 了一位天才,图灵。他是英国著名的数学家和逻辑学家,被称为计算机科学之父、人工智能 之父,是计算机逻辑的奠基者。在图灵之前没有任何人清楚地说明过莱布尼兹所说的“计算 机”到底是怎么一回事。直到 1936 年,图灵向伦敦权威的数学杂志投了一篇题为“论数字 计算在决断难题中的应用”的论文,提出著名的“图灵机”的设想。图灵机被公认为现代计 算机的原型。图灵后半生遭受迫害,不堪其辱,咬了一口被氰化物浸泡过的苹果,自杀身亡。

许多年后,有一位图灵的粉丝,捡起了那个被图灵咬了一口的苹果,创建了著名的苹果公司。 之后 1944 年,美国人 Chargaff 提出了 A=T,G=C 的 Chargaff 规则。同一时期,世界上 第一台现代电子计算机“埃尼阿克”,诞生于美国宾夕法尼亚大学。埃尼阿克占地面积 170 平方米、重达 30 吨。他的“绝招”是在 1 秒钟内进行 5000 次加法运算。

1951 年英国生物化学家桑格将胰岛素的氨基酸序列完整地定序出来,同时证明蛋白质 具有明确构造,即,氨基酸像一条链一样排列,同一种蛋白质总是具有特定的氨基酸排列顺 序。这项研究使他单独获得了 1958 年的诺贝尔化学奖。

到了 1953 年不得不提的是沃森,DNA 之父。他和克里克于 1953 年在《自然》上发表 了 DNA 双螺旋结构模型。而这个模型是根据弗兰克林和弗兰克林的助手威尔金斯,于 1952 年用 X 射线衍射法获得的一张晶体照片构建的。因此 DNA 双螺旋结构的发现这四个人都功 不可没。然而 1962 年的诺贝尔奖只授予了三位男士。弗兰克林并未获得诺贝尔奖,因为她 在获奖前因癌症去世,而诺贝尔奖只能颁发给活着的人。尽管如此,我们还是应该记住这位 伟大的女性。

在 DNA 的结构破解不久,第一个蛋白质的晶体结构也与世人见面。桑格告诉我们氨基 酸是按照一定顺序排列的,而这个晶体结构告诉我们,他们们并不是一条线,而是折叠成一 个具有特定形状的空间结构。这个晶体结构同样是通过 X 射线衍射法获得的。这门技术的 应用,使得研究大分子的结构成为可能。

与沃森一起破解 DNA 双螺旋结构的克里克在 1958 年就提出了中心法则,并于 1970 年 在《自然》上的一篇文章中重申。克里克提出的中心法则主要是说 DNA 复制形成 DNA, DNA 转录形成 RNA,RNA 再翻译形成蛋白质。今天我们知道,除了这些,病毒中的 RNA 也可以自我复制,RNA 还能逆转录成为 DNA,甚至理论上可实现遗传物质从 DNA 到蛋白 质的直接转移。在中心法则提出不久,两位美国科学家破译了全部遗传密码字典的 64 个密 码子并解释了密码子如何操控蛋白质合成。他们二人和提出 tRNA 三叶草结构模型的美国化 学家霍利分享了 1968 年的诺贝尔奖 。

到了 20 世纪 70 年代,桑格再次登场,研究出一种称为链终止法的技术来测定 DNA 序 列,又叫做双去氧终止法或桑格法。这项研究成果后来成为人类基因组计划得以展开的关键 技术之一,并使桑格于 1980 年与合作者吉尔伯特获得诺贝尔化学奖。这是桑格第二次获得 诺贝尔奖。1975 年真的是不同凡响的一年,这一年桑格发明了桑格测序法,而比尔盖茨于 这一年成立了微软公司,更巧的是,乔布斯也于这一年成立了苹果公司。

随着测序技术的出现以及计算机科学的快速发展,1979 年美国洛斯阿拉莫斯实验室建 立了 GenBank 数据库,以储存测序产生的数据。三年后,欧洲分子生物学实验室 EMBL 也 建立了核酸序列数据库,之后亚洲也有了自己的核酸序列数据库 DDBJ。三大核酸序列数据 库于 90 年代初实现资源共享,联合成立国际核苷酸序列数据库。随着三大核酸数据库中数 据的迅猛增长,生物信息学日渐成熟,并展露出不可或缺的重要地位。

1987 年美籍华人林 华安博士首创了 bioinformatics 一词,並发起首屆国际生物信息学系列会议,使得生物信息 学一词在世界各地广为沿用。非常有趣的是,bioinformatics 这个词也有着自己的进化史,这 个词最早以 compbio 出现,是 compute 和 biology 的缩写,后来发展成 bioinformatique, informatique 这个词源于法语,英语化后变成了 bio 连线 informatics。这个词用了一段时间, 直到电子邮件的出现。早期的电子邮件,标题不支持连线,于是去掉连线,有了今天的 bioinformatics。

二、生物信息的定义

人类基因组计划第一个五年总结报告给出了生物信息学较为完整的定义。报告中说:生 物信息学是一门交叉学科,它包含了生物信息的获取、加工、存储、分配、分析、解释等在 内的所有方面,它运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含 的生物学意义。 此外,各国不同的教科书里关于生物信息学也有不同的定义。比如,美国乔治亚理工大 学给生物信息学的定义是:生物信息学是采用数学、统计学和计算机等方法分析生物学、生 物化学和生物物理学数据的一门综合性学科。

美国加州大学洛杉矶分校说,生物信息学是对生物信息和生物学系统内在结构的研究, 它将大量系统的生物学数据与数学和计算机科学的分析理论及使用工具联系起来。 浙江大学陈铭教授在他所著的《生物信息学》一书中写到:生物信息学是计算机与信息 科学技术运用到生命科学,尤其是分子生物学研究中的交叉学科。

如果我们把 HGP 第一个五年报告,美国加州大学的定义,美国乔治亚理工大学的定义, 还有浙江大学陈铭教授所说的,综合到一起。他们似乎都在表达同一个意思,那就是“生物 信息学就是用计算机来解决生物问题”。

生物信息学的研究对象非常多,只要有生物学意义的他都研究。如果要细分的话,可以 分为核酸,蛋白质,和其他。

核酸:

  • 测序及应用
  • 基因序列注释
  • 基因预测
  • 核酸 序列比对
  • 核酸数据库
  • 比较基因组学
  • 宏基因组学
  • 基因进化
  • RNA 结构预测

蛋白质:

  • 蛋白质数据库
  • 蛋白质序列比对
  • 蛋白质二级三级结构预测
  • 蛋白质相互作用分析
  • 分子动力学模拟
  • 分子对接,蛋白质组学

其他:

  • 代谢网路模建
  • 数据 挖掘分析
  • 序列算法开发
  • 计算进化生物学
  • 生物多样性研究

三、生物信息在精准医学的应用

四、生物信息学面临的调整

  • 数据规模庞大
  • 数据类型复杂
  • 技术门槛偏高
  • 可重复性不强
  • 方法学不成熟

4.1 测序偏差错误

解决办法:

  1. Deep sequencing
  2. Statistical evaluation
  3. Error correction

4.2 计算速度和内存

4.3 数据的存储和可视化

参考资料

山东大学 基础医学院 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn