【3.1.1】核酸的一级结构及测序技术的发展

August 30, 2018 genetalks 阅读量：次

提要：

构成核酸分子的核苷酸或者碱基的排列顺序(The nucleotide or base sequence of nucleic acids)
序列总是从5′→3′的方向阅读，对应于蛋白质一级结构阅读的方向。因此，GC和CG 是不同的序列。Sequence is always read 5′ to 3′. In terms of genetic information, this corresponds to “N to C” in proteins，so GC is different from CG).
测定RNA一级结构的方法有两种:一是质谱，二是先用逆转录酶将其逆转录成 DN A。通过测定DNA，反推RNA的一级结构(Two methods can be used to sequence RNA: one is mass spectrometry and the other is to reverse-transcribe RNA into DNA first and then sequence DNA).
测定DNA一级结构的方法，已经历了几代的变化，从最初的双脱氧法和化学断裂法，已发展到现代的高通量的深度测序(Since dideoxy method and chemical cleavage method were developed to sequence DNA as the first generation of sequencing strategy, three more generations of high-throughout deep sequencing strategies have been established).

核酸的一级结构是指构成一个核酸分子的各个核苷酸结构单元或者碱基的排列顺序。在书写核酸一级结构的时候，习惯从左到右按5’到3’的方向书写。例如，5’pGATCGGAAATC-OH 3'。这段序列中的5’和3’完全可以省略掉。

作为遗传物质的DNA是以一级结构的形式贮存信息的，因此要了解DNA分子中所蕴涵的遗传信息，必须先确定它的序列。1977年，Frederick Sanger发明了双脱氧法（Dideoxy method），Maxam和Gilbert 发明了化学断裂法（chemical cleavage method）。可以说，这是两种最经典的测序方法，通常被视为第一代测序的方法。从那时起，DNA测序技术已经历了几代的变化。这里按“代”来划分，充分反映了测序技术在速度和成本上已连续经历了多次重大的发展和进步。

一、一代DNA测序

第一代测序用的最多的是双脱氧法，而化学断裂法只在一些特殊情况下使用。尽管在当今的基因组测序中，有许多新的测序技术取代了双脱氧法，但双脱氧法引入的几个重要的概念几乎仍然被用在大多数新的测序技术中。

1. 双脱氧法

1951年，Sanger测定了牛胰岛素的一级结构，后来因此获得第一次诺贝尔奖。在上世纪七十年代刚开始转向核酸序列测定这一课题研究时，他和他的同事们沿用了蛋白质序列测定的基本思路：首先用低浓度的酶将待测的核酸分子降解为若干相互重叠的大片段，分别分离出这些片段，分别再次用低浓度的酶降解，直至得到的一组相互重叠的小片段。测出这些小片段的序列，通过它们之间相互重叠的区域推算出核酸序列。这种方法的工作量显然太大、可行性差，因此简单套用蛋白质序列测定的方法是失败的。

双脱氧法的特点在于将生物体内DNA复制的酶学过程应用到序列测定中。

首先，待测的双链DNA可以被克隆到单链噬菌体载体而产生单链DNA，或者直接通过碱变性、热变性的方法直接得到单链DNA。
根据已知序列合成的特定引物与上述单链模板褪火后，在DNA聚合酶的催化下以四种dNTP的混合物为底物，合成一条与模板链互补的DNA链。如果四种脱氧核苷酸中有一种或几种的α-磷带有放射性标记，那么，新合成的链将被放射性同位素标记。在正常反应条件下，只要有足够的dNTP存在，DNA链将沿着5′→3′一直延伸到模板的末端。但是，如果在反应混合物中加入一种脱氧核苷酸类似物，即2′,3′-双脱氧核苷三磷酸（ddNTP），由于它的脱氧核糖无3′-OH，一旦它参入到DNA链上，反应在参入处提前终止。

因此，只要控制反应体系中dNTP（其中有一种带放射性标记）和ddNTP比例，就可以得到一组长短不同的具有相同起点的片段。测序通常需要做四个平行的反应，每个反应除加四种dNTP以外，仅加入一种ddNTP。例如，某反应中加入了ddATP，那么在一定的长度范围内，所有新合成的DNA片段由于参入ddATP而导致的意外终止，在3′-端都是A。因此，在ddATP浓度适当的情况下，所有新生链中A的位置都会对应于相应长度的DNA片段。将四组反应产物通过高分辨率的聚丙烯酰胺凝胶电泳分离，再经放射自显影，就可以从图谱上按片段从小到大，读出新生DNA链的碱基排列顺序，根据碱基互补配对的原则很容易得出模板链的序列。

2. 化学断裂法

化学断裂法首先将待测定的DNA片段的一端（3′-端或5′-端）进行放射性标记，然后在适当的条件下，用专一性的化学试剂特异性地修饰DNA分子上的某种或某类碱基，并控制反应条件，使每条DNA链上平均仅有一个碱基被修饰。然后从DNA链上除去已被修饰的碱基，并通过不同的化学处理使DNA在这个部位被切断。得到的各种长度的带放射性标记的片段并在聚丙烯酰胺凝胶上电泳。裂解DNA的过程包括：有限的碱基修饰、修饰碱基从核糖上脱离及5′,3′两侧磷酸二酯键断裂三步反应。例如硫酸二甲酯在pH 8.0条件下可以使DNA上鸟嘌呤N7位进行甲基化，甲基化使C8-C9键对碱裂解有特异的敏感性，极易水解；哌啶甲酸在pH 2.0下可以使嘌呤环的N原子质子化而脱嘌呤，并可使DNA链仅在鸟嘌呤残基处断裂。如果同位素标记在5′-端的话，这样就产生了一条DNA单链分子5′-端有放射性同位素标记，另一端的下一个碱基为鸟嘌呤。当然还需要同时在完成针对其他三种碱基的特异性裂解反应，通常可以通过酸的作用削弱腺嘌呤和鸟嘌呤的糖苷键，哌啶甲酸进而脱去嘌呤并切断磷酸二酯键。如果将这组结果与鸟嘌呤的结果在相邻的加样孔电泳的话，通过比较很容易推断出腺嘌呤的位置。

肼在碱性条件下进攻胸腺嘧啶和胞嘧啶的C4位和C6位，然后在哌啶甲酸的作用下脱去碱基并进一步导致DNA链断裂。在1.0 mol/L NaCl存在下，肼与胞嘧啶发生专一性反应，这样就可以在C和C+T两组产物中区分C和T。在所有碱基专一性的部分降解后得到的片段，实际上比该碱基所在的片段少了一个核苷酸。

化学裂解法测定核酸序列在速度、操作难度、可测定的DNA片段的长度等方面都逊于末端终止法，但对于测定小片段DNA、引物、人工合成片段的序列，这是唯一的方法。另外在DNA足印法（DNA footprinting）中也有它的应用。

末端终止法通过在体外合成DNA的过程中参入ddNTP，从而产生四组末端已知DNA片段的混合物，化学裂解法则通过特异性的化学修饰与裂解，进而得到四组末端已知的DNA片段的混合物，因此从这一点上看来，两种看似完全不同的方法有着完全相同的思路。

3. 全自动测序

Sanger发明的DNA测序方法以前都是由手工完成。尽管每次测定序列的长度可以达到数百个碱基，但要完成任何一个生物的基因组的序列测定，工作量还是十分巨大。上个世纪90年代初期，在Sanger法的基础上，自动化的DNA测序技术得到了发展。正是在这一技术的基础上，人类基因组计划才得以实施。如果没有高通量的自动化测序技术，要完成如此浩大的工程几乎是不可能的。

自动测序的DNA聚合反应仍然是手工完成的，在原理上和Sanger的手工测定方法并无本质的区别。差别在于用荧光标记取代了同位素标记，通过标记引物或者标记ddNTP引入荧光，使DNA聚合反应的产物带上4种不同颜色的荧光。比如，假设用红色荧光标记ddATP，那么在含有荧光ddATP的反应体系中，所有以A结尾的DNA条带都带有红色荧光。在DNA聚合反应完成后，4个样品被混合在一起。随后从样品的上样、电泳、电泳条带的检测，到最终DNA序列的生成，都可以由机器自动化完成。

DNA条带经电泳后得到分离，按分子从小到大的顺序依次通过检测区。检测区有一个激光器，可发出不同波长的激发光。当DNA条带被激光照射后，DNA上的荧光基团被激发产生荧光。不同的荧光信号被探测器探测到后，被转换为相应的电信号后输入计算机记录下来。由于相邻的条带只相差一个碱基，而不同的荧光又代表特定的碱基末端。因此，根据依次通过检测区的DNA条带的荧光颜色及强度，可以用软件实现DNA序列的自动输出。

荧光标记灵敏度高，没有放射性污染，而且4色荧光标记可以用不同的波长检测，因此4个样品可以混合在同一个泳道内电泳，提高了凝胶的利用率，检测通量是原来的4倍。

二、第二代DNA测序

第二代测序技术的典型标志是使用大规模并行的方法，即大量样品在同一个仪器内同时测定。但要做到这一点需要实现微型化和增强的计算能力。第二代测序方法在速度上比第一代快100倍。有三种被广泛使用的第二代测序方法，它们是454 Life Sciences焦磷酸测序（pyrosequencing）、Illumina/Solexa测序和SOLiD/Applied Biosystems测序。

454系统需要将DNA切成几百个碱基长的单链片段。每一个片段被固定在小珠子上，随后使用聚合酶链式反应（polymerase chain reaction，PCR）进行扩增，使得每一个小珠子上带有许多相同拷贝的DNA。再使用微型机器人，将珠子放到含有上百万微孔的光纤平板上，每一个微孔刚好可以放人一个小珠。与Sanger 的末端终止法相似，焦磷酸测序也需要使用DNA聚合酶合成互补链。焦磷酸测序需要在同一反应体系中发生由4种特异性酶催化的级联化学发光反应，在每一轮测序反应中，只加入一种dNTP，若该dNTP与模板配对，聚合酶就可以将其参入到引物链的3′-端，并释放出等量的焦磷酸基团（PPi）。PPi可转化为可见光信号，并最终转化为一个峰值。每个峰值的高度与反应中参入的核苷酸数目成正比。第一轮反应结束后，再加入下一种dNTP，继续下一轮DNA链的合成。整个测序反应分为四步：

（1）将单链DNA模板与其特异性的测序引物结合，然后加入四种酶的混合物，包括：DNA聚合酶、ATP硫酸化酶（ATP sulfurylase）、荧光素酶（luciferase）和双磷酸酶（apyrase）。反应底物有腺苷-5′-磷酸硫酸（adenosine-5′-phosphosulfate，APS)和荧光素（luciferin）。

（2）向反应体系中加入1种dNTP，如果它正好能和DNA模板的下一个碱基配对，就会在DNA 聚合酶的作用下，被添加到测序引物的3′-端，同时释放出1分子的PPi。dATP由腺苷-α硫-三磷酸（deoxyadenosine alfa-thio triphosphate，dATPαS）替代，原因是DNA聚合酶对dATPαS的催化效率比对dATP的催化效率高，且dATPαS不是荧光素酶的底物。

（3）在ATP硫酸化酶的作用下，生成的PPi可以和APS结合形成ATP；在荧光素酶的催化下，生成的ATP又可以和荧光素结合，形成氧化荧光素，同时产生可见光。通过电荷耦合器（charge coupled device，CCD）光学系统，即可获得一个特异的检测峰，峰值的高低和相匹配的碱基数成正比。

（4）反应体系中剩余的dNTP和残留的少量ATP在双磷酸酶的作用下发生降解。

（5）加入另一种dNTP，按第2、3、4步反应重复进行，根据获得的峰值图即可读取准确的DNA序列信息。

焦磷酸测序作为一种新的测序技术，另外一个用处是通过比较亚硫酸盐（bisulfite）处理前后的测序结果，快速地检测目的DNA甲基化的频率和样式，对样品中的甲基化位点进行定性及定量检测，为甲基化研究提供了新的途径。如下图所示，需要对同一种样品进行两次测序：一次是对原始样品直接进行焦磷酸测序，另一次是先使用亚硫酸盐对样品处理，然后进行PCR扩增，再进行测序。亚硫酸盐能够将没有甲基化的C转变成U，甲基化的C则不会受影响。因此，通过PCR扩增，甲基化的C被拷贝成C，而由没有甲基化转变而来的U则被拷贝成T。于是，第二次测序的结果上保留为C的位置就是原始样品上的甲基化C的位置，而新出现的T峰则是原来的没有甲基化的C所在的位置。

Illumina/Solexa方法类似于Sanger法，也要进行DNA合成，并使用链末端核苷酸终止剂。但使用的末端终止剂不是双脱氧核苷酸，而是单脱氧核苷酸，而且参入是可逆的。此外，四种在3′-羟基带有不同荧光标记的脱氧核苷酸作为末端终止剂。

三、第三代DNA测序

第三代测序技术的核心特征是对单分子DNA测序。这里有两个新颖之处对于单分子测序至关重要：首先，反应在纳米容器（零模式波导）内进行。这些细小的圆柱体金属槽（20 nm宽）可以有效地降低背景光，使得单个核苷酸发出的单道闪光能够检测到；其次，荧光标签不是标记在参入的脱氧核苷酸残基上，而是标在释放出来的焦磷酸基团上。于是，荧光标签没有积累在DNA上，而是每一次反应释放一个显微的可见光信号。主要有两种途径：一条基于显微技术（microscopy），另一条是基于纳米技术（nano-technology）。HeliScope 的单分子测序仪（single molecule sequencer）实际上也是一种循环芯片测序设备。其最大特点是无需对测序模板进行扩增，因为它使用了一种高灵敏度的荧光探测仪直接对单链DNA模板进行合成法测序。首先，将基因组DNA切割成随机的小片段DNA分子，并且在每个片段末端加上多聚A尾巴。然后通过多聚A尾巴和固定在芯片上的多聚T互补配对，将待测模板固定到芯片上，制成测序芯片。最后借助聚合酶将荧光标记的单脱氧核苷酸掺入到引物上。采集荧光信号，切除荧光标记基团，进行下一轮测序反应，如此反复，最终获得完整的序列信息。根据最近的报道，经过数百轮这种单碱基延伸可以获得25bp或更长的测序长度。太平洋生命科学单分子实时测序（Pacific Biosciences single-molecule real-time sequencing）则使用一种叫零模式波导（zero-mode waveguides）的技术。在使用这种方法的时候，DNA聚合酶延伸四种带有不同荧光染料的脱氧核苷酸。每一个脱氧核苷酸在参入的瞬间会发出一道闪光。

四、第四代DNA测序

第四代测序技术的核心特征是不再使用光检测，而是利用离子流（ion torrent ）测序，所以也称为后光测序（post light sequencing）。这一代测序方法并不适用单分子测序，而是使用标记的脱氧核苷酸。它测定的是伴随一个新脱氧核苷酸的参入释放出来的质子。这种方法测序的速度极快，相关的测序仪器比前几代测序所使用的仪器要便宜很多。例如，这种仪器可以在不到一天的时间测出一个人的全基因组序列。离子流测序的基本原理是：在半导体芯片的微孔中固定DNA链，随后依次掺入ACGT。DNA 聚合酶以单链DNA 为模板，按碱基互补原理，合成互补的DNA 链。DNA 链每延伸一个碱基时，就会释放一个质子，在它们穿过每个孔底部时能被离子传感器检测到pH 变化后，即刻便从化学信号转变为数字电子信号，从而通过对质子的检测，实时判读碱基。离子流半导体测序芯片的每个微孔里微球表面含有大约100万个拷贝的DNA 分子。如果DNA 链含有两个相同的碱基，则记录电压信号是双倍的。如果碱基不匹配，则无质子释放，也就没有电压信号的变化。这种方法属于直接检测DNA 的合成，因少了CCD 扫描，荧光激发等环节，几秒钟就可检测合成插入的碱基，大大缩短了运行时间。

纳米孔（Nanopore）技术基于能在单分子水平上操作的显微仪器。DNA的纳米孔检测器特别细，一个纳米孔一次只允许一条DNA单链通过。牛津纳米孔技术系统使用的纳米孔是由蛋白质制备而成的。在毫伏级电压的作用下，DNA的一条单链通过纳米孔向前泳动。随着单链DNA分子通过小孔，检测器记录纳米孔的电流变化。电流的差别取决于每一个碱基以及不同碱基的组合。纳米孔技术的主要优点在于快速和能测定长的DNA，其他大多数测序方法测定的是短的DNA片段。此外，可以将许多纳米孔集中装配在一个芯片上的非常小的区域，这样可以并行测定许多长的DNA片段。

参考资料

南京大学杨荣武老师《结构生物学》课件

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn