【2.2】测序技术发展概况
基因组虽然只是ATCG,四个字母的重复,却蕴含着生命的遗传信息。因此从20世纪前页,人们认识到DNA的重要性后,就将测序(确定一个特定DNA分子的序列)作为理解生命的重要方法。然而直到1977年才有英国化学家Frederick Sanger提出并实现,他本人也因此于1980年与Walter Gilbert分享了诺贝尔化学奖。Sanger测序方法的广泛应用使得大规模的测定基因组序列成为可能,并未人类最终在20世纪完成人类基因组草图的绘制奠定了坚实的基础。
进入21世纪,测序技术继续迅猛发展。其中,以2005年454技术发布为标志,新一代测序技术开始登上了舞台。目前,近千台新一代的测序仪分布在全国逾百家科研机构与公司,并广泛应用于生物学,医学,农学等各个领域的科研,教育与应用中。与经典的Sanger Sequencing相比,新一代测序技术可以产生更多的reads,从而得到更高的测序深度。因此,也常常被称为深度测序。另一方,相比于与Sanger sequencing ,新一代测序技术产生的平均reads长度更短,出错率更高。从而,给后续的生物信息学的分析提出了更大的挑战。(每日一生信–新一代的测序,哥哥我不怕挑战)
除ABI公司SOLID之外,深度测序仪产生的数据通常被保存为FASTQ格式。其中对于每条read在具体的核酸序列信息外,还包括了每个碱基对应的质量信息。为了方便阅读,单点测序质量Q被表示为basecalling错误概率p=-10log10,,也就是说测序质量为20时,就对应于0.01的错误概率。在此基础上,Q值进一步按照转换表,被编码为ASCII码字符,保存在Fastq文件中。
通过质量信息就可以判断对应碱基字符(symbol)的可靠程度。最为一个经验规则(rule of thumb),在实际分析工作中常常会将质量分数小于20,也就是错误率大于0.01的碱基认为是不可靠的。如果这样的碱基超过read长度的20%,即会考虑将此条read丢弃。另一方面,为了克服reads过短带来的问题,新一代测序广泛运用了paired-end reads,也即同时对一个较长的片段两端进行测序。这是,相应的reads名字会在最后分别加上/1和/2以示区别。
新一代测序技术的出现,有力的推动了相关领域的研究。目前,除了基因组DNA测序外,新一代测序技术还被用于研究表观遗传学修饰,RNA转录组以及蛋白-DNA相互作用等重要生物学问题。通过将个体基因组(individual genome)测序产生得到的DNA reads map 到参考基因组,可以有效地发现不同个体(individual)之间存在的遗传差异。
在此基础上,通过与特定的表现差异相联系,就可以开展关联分析(Association Study),研究表现差异的遗传学基础,从而为研究遗传疾病的机制,并为探索后续的诊断与治疗方案提供重要的线索。
RNA-seq是利用深度测序技术来研究转录组的技术,通过系统测序细胞中表达的全部转录本,RNA-Seq技术使得研究人员可以快速确定转录组,进而鉴定存在的可变剪切体(Alternative splicing isoform),这是传统的microarray等技术很难做到的。于此同时,通过统计每个基因(locus)对应的reads数目(number of mapped reads),可以估计基因的表达水平,并进而进行差异表达分析,聚类分析等统计计算以确定与给定生物过程相关的基因。
与RNA-seq类似,ChIP-Seq也是利用深度测序技术来研究转录调控的技术。与RNA-seq不同的是,ChIP-Seq通过深度测序技术,测定与特定抗体结合的DNA序列,并进而推断Protein-DNA相互作用,通过选择不同的抗体,ChIP-Seq技术既可以用来检测转录因子的结合位点,也可以用来检测特定染色质修饰区域,因此在转录调控乃至表观遗传学研究所获得了广发的应用。
参考资料:
北大高歌老师的课件
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn