【3.4.1】rna-seq

摘要

在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构组,structurome)。RNA-seq的其它应用也在开发中,例如空间转录学(spatialomics)。加上新的长读长 (long-read,注:在本文中,RNA-seq测序生成的read统一译为“读长“)和直接RNA-seq(direct RNA-seq)技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

一、前言

RNA-seq技术出现于十年之前,自其诞生之日起,RNA-seq就成了研究分子生物学的普遍工具,这项技术几乎构成了我们对基因组功能的认知基础 。RNA-seq中最常用的分析方法就是找出差异基因表达(Differential gene expression, DGE)。从最早的出版期刊开始,DGE分析的基本阶段就未发生实质性的改变。

在实验室中,其标准流程就分为三步:

  1. 第一步是构建测序文库,这一步骤包括提取RNA,富集mRNA或清除核糖体RNA,合成 cDNA,加上接头。

  2. 第二步,在高通量平台(通常是Illumina平台)上对文库进行测序,每个样本的测序深度为10-30M读长数(读长这里就是前面说的reads)。

  3. 第三步是数据分析,具体的工作是:对测序得到的读长进行比对(aligning)和/或组装到转录组上,对这些覆盖了转录组的读长进行过滤,归一化(Normalization),根据统计模型找出那些在不同样本之间有差异的转录本。早期的RNA-seq从大量的实验样本中产生了DGE数据,这充分说明了RNA-seq在广泛的生物体以及系统中的使用,这些生物体包括玉米(Zea mays), 拟南芥(Arabiodopsis thaliana), 酿酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人类。虽然RNA-seq这个术语经常被用于那些完全不同的方法学方法和/或生物学,但是DGE分析仍然是RNA-seq(补充材料中的表1)的主要应用,并被视为常规研究工具。

RNA-seq的更广泛应用已经促进了我们对生物学多方面的理解 ,例如通过提示mRNA剪接和非编码RNAs和增强子RNAs对基因表达的调控。RNA-seq的应用和进步是由技术发展(湿实验室和计算生物学)驱动的,相对于以前的基因芯片,RNA-seq这种方法对RNA生物学和转录组产生更丰富并且偏见更小的信息。到目前为止,从标准的RNA-seq方法衍生而来的各种RNA-seq方法几乎有100种。Illumina的短读长(short-read)测序平台能对这些由大部分不同方法的RNA-seq构建的文库进行测序,但是最近长读长(long-read)RNA-seq的与直接RNA-seq测序(direct RNA sequencing, dRNA-seq)的进步已经能够解决以前研究人员使用短序列手段无法解决的一些问题。

在这篇综述中,

  1. 我们首先会介绍一些最基本的短读长RNA-seq中的DGE方法,再将这种基础方法与最近新兴的长读长RNA-seq和dRNA-seq进行比较。
  2. 我们会介绍短读长测序方法在文库制备方面的进展,以及实验设计和DGE的数据分析方法。
  3. 随后我们会拓展这些常规的RNA-seq方法,介绍一些单细胞测序和空间转录组学的分析。
  4. 我们会提供一些案例,介绍RNA-seq在RNA生物学方面的关键应用,包括转录组分析,翻译动力学,RNA结构,RNA-RNA之间相互作用和RNA-蛋白质的相互作用。
  5. 最后,我们会简单描述一下RNA-seq的未来,以及单细胞和空间RNA-seq方法是否会像DGE分析一样成为常规工具,长读长测序方法是否会取代短读长测序方法。

由于篇幅限制,我们无法介绍所有的RNA-seq方法,在这些方法中,值得注意的是非编码转录组学,原核转录组学(prokaryotic transcriptomes)和表观转录组学(epitranscriptome)。

二、RNA-seq技术的发展历史

Illumina的短序列读长测序技术生成了SRA(Short Read Archive)中95%已表达的数据(附件表2)。由于cDNA的短序列读长测序方法几乎是一种常规的方法,因此 我们认为这是一种最基础的 RNA-seq技术,我们先来讨论这种测序主要流程与局限。不过,长读长cDNA测序与dRNA-seq已经兴起,随着研究人员对能提供更丰富转录本水平方面(isoform-level)数据需求增大,这两种新的测序方法有望对常规的短读长测序方法提出挑战(FIG1, TABLE1)。

Table1-短读长与长读长RNA-seq平台

Figure 1-短读长,长读长和直接RNA-seq技术与工作流程

Figure 1-短读长,长读长和直接RNA-seq技术与工作流程。

(a)不同RNA-se方法的文库制备,这些方法可以分为3种,分别是短读长测序(黑色),长读长测序(绿色),或长读长直接RNA-seq(蓝色)。根据使用的文库制备方法不同,文库制备会表现出相应的复杂性和偏倚。短读长与长读长cDNA文库在制备时有一些步骤是相同的,不过所有的方法都需要一个接头连接步骤,并且它们都受到样本质量和文库上下游计算问题的影响。

(b)三种主流的RNA-seq测序方法。 Illumina的工作流程(左边):文库制备好后,每个cDNA就会在一个泳道(flowcell)上通过合成来聚集成簇,其中合成的过程使用3’阻断的荧光标记的核苷酸。在每一轮测序的过程中,新合成的DNA链就会被成像,从而检测出参与合成的是哪种核苷酸,这种测序方法产生的读长是50-500bp。 Pacific Biosciences工作流程(中间):文库制备好后,每个分子被加载到一个测序芯片上,在芯片上这些分子与固定到纳米孔(nanowell)底部的聚合酶进行结合。随着每一个荧光标记的核苷酸被整合到新合成的链上,这些核苷酸发出的荧光就会被检测到,这种方法产生的读长为50kb。 Oxford纳米孔工作流程(右边):文库制备好后,每个分子被加载到流动室(flowccell)中,流式室中含有马达蛋白,马达蛋白固定在流动室中,它可以与文库的接头结合。马达蛋白控制RNA链通过纳米孔,从而造成纳米孔中电流的改变,这种技术产生的读长为1-10kb。

(c) 短读长、长读长与直接RNA-seq分析的比较。超过90%的人类基因(gene n)存在可变剪接,它们会形成两个或更多的可表达异构体(转录本x与y)。短读长cDNA测序中就增加了捕获信息的复杂性,短读长对异构体的检测会受到其读长的限制,在这种技术里,短读长无法精确地回贴(注:测序分析方法中的术语“map“在本文中都译为”回贴“)到转录组上,而长读长测序方法则能直接鉴定异构体。在短读长cDNA测序中,有很大比例的读长会不明确地回贴到不同异构相同的外显子上;而那些跨越了外显子-外显子连接处的读长可以提高对异构体的分析效果,但是当不同的异构体都含有这个连接处时,这种操作意义不大。这些问题都加剧了数据分析的复杂性,以及无法对结果进行明确地解释。长读长cDNA方法能够产生全长的异构体读长,从而去除或大幅度降低这些不精确的结果,并改进差异异构表达的分析结果。然而这些方法依赖于cDNA的转换,它去除了RNA碱基的修饰信息,并且只能粗略地估计多聚腺苷酸(poly(A))尾巴长度。直接RNA-seq可以进行全长导构体分析,碱基修饰检测(例如N6-甲基腺苷(M6A))和poly(A)尾巴长度估计。

三、测序方法比较

3.1 短读长cDNA测序

短读长已经成了在整个转录组范围内对基因进行检测和定量的事实方法(de facto method),部分原因是这种方法比芯片成本更低,操作更方便,但是其主要原因还是因为这种方法能生成更全面,更高质量的数据,这种方法能够 对整个转录组中的基因表达水平进行定量。

使用Illumina短读长测序平台进行DGE分析的核心步骤包括:RNA提取、cDNA合成、接头连接、PCR扩增、测序和数据分析(FIG1)。在这个过程中,存在打断片段,片段长度选择和基于磁珠的文库纯化这些操作,因此这种方法产生的cDNA片段通常都是在200bp以下。RNA-seq文库的测序读长分配到每个样本上的话,每个样本会测到平均20-30 million条读长(reads)(也就是常说的20-30M条读长),数据经过处理后,使用这些读长对每个基因或转录本进行定量,最后再用统计学方法来统计基因的差异。短读长RNA-seq方法很稳健,并且通过对短读长测序技术的大范围比较发现,这种技术在平台内和平台间的相关性很好。

但是,在样本制备和数据分析这两个阶段会引入一些干扰和偏倚。这种局限可能会影响通过实验来解决特定生物学问题的能力,例如准确识别和量化多个异构体中的哪个来源于一个基因。对于研究那些非常长,高度可变的转录本异构的人来说,这种局限表现得尤为明显,例如在人类转录组研究中;人类转录本的长度范围是109bp到186kb,其中50%转录本长度大于2500bp。尽管短读长RNA-seq可以对最长的转录本进行详细的分析,但是涉及的实验方法不能扩展到全转录组分析。其他的偏倚与局限来源于那些大量的计算方法,这些方法包括例如如何处理模糊或多个回贴的读长(multi-mapped reads)。

现在出现了一种合成长读长(synthetic long reads)的新方法,这种方法可以实现全长的mRNA测序,并试图解决其中的一些局限。这种方法使用了唯一分子标识符(unique molecular identifiers,UMI)来标记全长的cDNA,在制备短读长RNA文库之前,加入的UMI会随着单个cDNA分子而进行复制。转录本异构体可以在高达4kd的contigs中重建,用于发现异构体和表达分析。但是,对于从根本上解决短读长cDNA测序固有局限的最可能解决方案则是长读长cDNA测序和dRNA-seq测序 。

3.2 长读长cDNA测序

虽然Illumina测序目前是占主导地位的RNA-seq平台,但PacBio和Oxford Nanopore(ONT)公司都提供了可供选择的长读长技术,能够对完整的单个RNA分子进行单分子水平级的测序。通过消除短RNA-seq测序数据的组装这一步,这些新方法克服了短读长测序方法相关的一些问题。例如,减少了测序读长回贴过程中的歧义,并且可以识别更长的转录本,这样就能获取更完整的异构体多样性信息。这些方法还能降低许多短读长RNA-seq计算工具中关于剪接连接的假阳性。

PacBio的Iso-Seq技术可以读取最高可达15kb的转录本的全长cDNA,这就有利于发现大量以前未注释的转录本,并通过检测物种的全长同源序列证实了早期的基因预测。在标准的Iso-Seq操作流程中,高质量的RNA被一个模板切换凝聚力转录酶(a template-switching reverse transcriptase)反转录为全长的cDNA。生成的cDNAs再经过PCR扩增,加入到PacBio的单分子实时(single-molecule, real-time)文库制备系统中。制备好的短转录本序列可以很快地扩散到测序芯片的活性表面,但由于短转录本的测序存在偏倚,因此在对转录本进行测序时,建议选择片段的长度是1到4kb,这样就能在此范围对长转录本和短转录本进行更加均匀地采样。由于PacBio测序方法需要大量的模板,因此需要进行多轮PCR,不过这一操作还需要进行优化,从而降低扩增导至的偏倚。经过PCR的末端修复和PacBio SMRT接头连接后,就可以进行长读长测序了;通过修改测序芯片的上样条件,就可以在这一步骤进一步控制测序片段长度。

ONT cDNA测序方法也能产生全长的转录本读长,甚至还能在单细胞水平上产生该读长。模板转录逆转录酶也在这种方法中用于制备全长cDNA,制备好的cDNA可以选择使用PCR来进行扩增,随后在产物上加上接头,形成测序文库。直接cDNA测序会消除PCR偏倚,从而形成高质量的测序结果;但是,如果使用PCR来制备测序文库的话,需要的RNA数量更少。ONT cDNA测序法尚未报道过在PacBio测序仪上观察到的片段长度偏倚。

这两种长读长cDNA方法都受到标准模板切换逆转录酶使用的限制,这种逆转录酶能用全长RNA以及截短的RNA来生成cDNA。逆转录酶可以将那些只含5ʹ帽子结构的mRNA置换为cDNA,这样的话,那些由于RNA降解,RNA剪接或不完全cDNA合成而生成的短转录本就不会被反转录为cDNA,从而提高数据质量。但是,有报道指出,逆转录酶会对ONT平台的读长产生不良影响。

3.3 长读长直接RNA测序

前面我们提到了长读长测序方法,这种测序方法与短读长测序平台一样,它们都依赖于将mRNA转换为cDNA。而最近Oxford Nanopore指出,他们的纳米孔测序技术可以直接对RNA进行测序,也就是说,这种测序手段不需要常规测建库过程中的的cDNA的合成和/或PCR扩增操作。这种方法称为dRNA-seq,这种方法就消除了常规建库过程中的偏倚,并且能够保留表观遗传学信息。

这种方法可以从RNA直接进行两个接头的连接来制备文库。

  1. 首先,带有一个oligo(dT)悬臂的双链核酸接头退火并连接到RNA的多聚腺苷酸(PolyA)尾部,随后就是可选(但不推荐的)的逆转录操作,这一步用于提高测序的通量。
  2. 第二个连接操作就是添加测序接头,这个测序接头上已经提前安装有驱动测序的马达蛋白。文库随后进行MinION测序,其中RNA直接从3ʹpoly(A)尾部向5ʹcap端进行测序。

最初的研究表明,dRNA-seq的测序长度过超过1000bp,最大测序长度过超过10kb。与短读长测序相比,这种长读长测序的几个优势在于:

  1. 长读长测序可以提高对异构体的检测,
  2. 并且它们还可以用于下方代码poly(A)尾巴的长度,这对于可变poly(A)分析( alternative poly(A) analysis)来说非常重要。Nanopolish-polya这个工具可以对那些用纳米孔测序得到的数据进行分析,计算出poly(A)尾的长度,这就包括基因之间的长度,也包括转录亚型之间的长度。这种分析证实了,保留内含子的转录本比完全剪接的转录本具有略长的poly(A)尾巴。

虽然dRNA-seq还处于起步阶段,但是它具有检测RNA碱基修饰的潜力,因此它的应用潜力巨大,尤其是能够对表观遗传学转录进行新的分析。

3.4 长读长与短读长技术的比较

虽然长读长技术在评估转录本方面比短读长技术有一些明显的优势,但是长读长技术也有一些明显的局限。

  1. 尤其是与短读长技术相比,长读长技术的测序通量更低,错误率更多。
  2. 但长读长技术的主要优势在于,它们能够捕获更多的单个转录本,不过这依赖于高质量的RNA文库。总体来说,这些局限影响了那些完全依赖于长读长测序实验的灵敏性(sensitivity)与特异性(specificity)。

长读长测序方法的主要局限就是当前的通量。在Illumina平台上,运行单次的RNA-seq可以生成10E9-10E10条短读长,但是在PacBio和ONT平台上,一次RNA-seq则只能产生10E6-10E7条读长。这种低通量限制了应用长读长测序技术进行实验的规模,并降低了对差异基因表达检测的灵敏性。然而,并非所有的实验都需要高深度测序。对于那些主要研究异构体的发现以及其特征的研究者们来说,测序长度比测序深度更重要。例如1百万个PacBio环形一致性测序(circular consensus-sequencing, CCS)的读长几乎就可以保证产生那些大于1kb的高表达基因的检测,ONT测序技术也是如此。因此,对于那些低到中等水平表达的基因来说,测序深度确实是一个主要问题。当进行同期功能基因组学分析(contemporary functional genomics analysis)大规模的DGE实验时,这种低通量测序技术的局限就会表现得明显。在这些研究中,必须对多个样本组进行分析,每组就是由多个生物学重复构成的,这样就能够实现充分的统计功效来有确认那些在整个转录组水平上发生的精确变化。对于这种需求,长读长技术不太可能取代短读长技术,除非长读长的测序读长的生成量能提高2个数量级。随着全长RNA-seq读长数目的增加,转录本检测的灵敏度将会增加到类似于Illumina平台上的这种水平,并同时具有更高的特异性。与此同时,通过将Illumina 的短读长RNA-Seq与PacBio的长读长Iso-Seq结合(并且可能还与ONT方法结合),可以增加全长RefSeq注释的异构体检测的数量、灵敏性和特异性,同时保留转录本量化的质量。虽然长读长RNA-seq方法目前的实验成本较高,但它们可以检测到短读长方法遗漏的异构体,尤其是那些难以测序但与临床相关的区域,例如高度多态的人类MHC或雄激素受体。

长读长测序平台的第二个主要局限就是其更高的错误率,它比成熟的Illumina测序仪要高出一到两个数量级。长读长测序平台上生成的数据还包含更多的插入-删除错误。虽然这些错误与识别变化(variant calling)有关,但在RNA-seq中,每个碱基都被正确识别并非那么重要而长读长测序的目标是要阐明转录本和异构体(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)。这种错误率对于其应用来说确实是一个值得观注的问题,现在正在解决这一问题。PacBio SMRT测序平台上出现的随机错误通常可以通过使用CCS增加测序深度来进行解决,在这种技术里,cDNA经过长度选择和接头进行环化后,每个分子就可以被多次测序,从而产生长度范围是10-60kb的连续长读长,并且包含许多原始cDNA的拷贝。这些长读长经过数据分析后就被处理为单个cDNA子子读长(subreads),这些子读长被组合后就可以产生一致的序列。分子测序的次数越多,产生的错误率就越低;CCS已经被证明可以将错误率降低到与短读长相当的水平,甚至更低。但是,将更多的这个平台的测序能力用于重新读取相同的分子,就又加剧了其测序通量的问题,因为可以读取的唯一转录本变得更少了。

长读长RNA-seq方法的灵敏度还受到其他几个因素的限制。

  1. 首先,它们依赖于长RNA分子以全长转录本的形式进行测序,但是要达到这种情况并非总能实现,因为在样品处理和RNA提取过程中RNA会发生降解或剪接。这种情况在短读长RNA-seq中也存在(3ʹ端的偏倚),但这种问题在短读长中是可控的,对于全长转录组分析进行研究的研究者们来说,即使是低水平的RNA降解,也能限制长读长的RNA-seq效果。因此,对于那些即将使用长读长进行测序的研究者来说,需要仔细地对提取的RNA进行质控。
  2. 其次,中位数的读长长度会进一步受到文库制备中的技术问题与偏倚的限制,例如有些cDNA合成的截断或某些cDNA是由降解的mRNA合成的,最近开发的高效逆转录酶对此有所改进,这些酶有着更高的链特异性,甚至能够产生更多的3ʹ-5ʹ转录本的覆盖。虽然这些酶还未被广泛使用,但是这些高效逆转录酶也提高了结构稳定的RNAs,例如tRNAs的覆盖率,在oligo-dT和全转录组分析(WTA)方法中使用的逆转录酶很难处理这些结构稳定的RNAs。
  3. 第三,长读长测序平台固有的偏倚(例如长文库分子在测序芯片表面上的低扩散)会降低更长转录本的覆盖率。

长读长方法(使用cDNA或dRNA-seq)解决了用于异构体分析的短读长测序方法中的一个基本问题,即它们的读长长度。长读长方法可以生成从Poly(A)尾部到5ʹcap的跨异构体的全长转录本读长。因此,这些方法使得分析转录本及其异构体成为可能,从而无需从短的读长中重构它们或推断它们的存在;每个测序的读长仅仅代表了它的起始RNA分子。全长cDNA测序或dRNA-seq用于分析DGE的未来应用将依赖于PacBio和ONT技术的更高通量。长读长RNA-seq分析正被研究者们迅速采用,并与深度短读长RNA-seq数据结合起来,用于更全面的分析,这非常类似于基因组组装所采取的混合方法。随着时间的推移,长读长和dRNA-seq方法可能会用于证明已经鉴定的基因和转录本的列表,即使在研究很透的生物中,对于基因和转录本的研究也还远远不够。随着方法的成熟,以及测序通量的增加,差异转录本分析将会成为常规方法。合成长读长RNA-seq或其它技术的发展将对这个领域产生什么样的影响,还有待观察。然而从目前来看,Illumina短读长RNA-seq依然占据了主导地位,在这篇综述的剩下部分中我们将会集中讨论短读长测序。

四、改良RNA-seq建库方法

RNA-seq最初用于分析多聚腺苷酸化的转录本,使用的方法源于早期的表达序列标签(expressed-sequence tag)和芯片研究。然而,下一代测序的使用指出了这些方法的局限性,而这些局限性在芯片数据中并不明显。因此,在RNA-seq首次报道后不久,就有研究报道了文库制备方法的一些重大进展。例如,在cDNA合成之前,对RNA进行片段化可以产生3ʹ:5ʹ偏倚,链特异性文库制备方法能够更好的区分正义链与反义链,这些改进都能够对转录本丰度进行更准确的估计。RNA片段化和链特异性文的制备很快就成了RNA-seq文库制备试剂盒中的标准方法。

这里我们简要描述了其它RNA-seq方法的改良,使用这些改进方法的可以让研究者们根据他们的生物学问题以及特定样本进行选择。这些改进的方法包括在选择RNA进行测序时,取代dligo-dT富集的替代方法,或者是那些专门选择转录本的3ʹ或5ʹ末端的方法,或者是使用UMIs进行区分技术重复和生物重复的方法,以及针对RNA易降解特性改良的文库制备方法。这些方法的组合可以使研究者们阐明由可变poly(A)(alternative poly(A),APA),或替代启动子(alternative promoter)使用和可变剪接(alternative splicing)生成的复杂转录本。

4.2 Poly(A)富集的替代方法

大多数发表的RNA-seq数据都是基于oligo-dT富集的mRNA方法,这种方法会选择包含poly(A)尾的转录本,并将集中测序测序那些在转录组的蛋白质编码区上。不过这种方法除了产生3ʹ偏倚外,RNA中还有许多非编码RNA,例如miRNA和增强子RNA,这些RNA不含有poly(A),因此不能使用这种方法进行研究。如果不进行poly(A)富集也无法达到目的,因为这会导至高达95%的读长来源于rRNA。因此,研究者们可以选择使用oligo-dT用于mRNA-seq,或者是剔除rRNA后进行WTA。短的非编码RNAs无法被oligo-dT方法捕获,使用WTA也很难对其进行研究,因此在研究非编码短RNA时需要特定的小RNA方法,这些方法主要是通过顺序RNA连接(sequential RNA ligation)实现的(通常小RNA建库试剂盒中就有相应的说明)。

WTA生成的RNA-seq数据来源于编码和一些非编码RNA。RNA的部分降解也能使用这种方法进行测序,RNA的降解会导至一些poly(A)从转录的末端分离。rRNA的去除有两种方法:

  1. 一种是将rRNAs从其它RNA中剔除掉(所谓的pull-out法),
  2. 另一种就是使用RNAse H酶来对rRNA进行降解。

这两种方法都是使用序列特异性和物种特异性寡核苷酸探索来实现的,这些探针能与细胞质rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和线粒体rRNA(12S rRNA和16S rRNA)互补。为了简化人类,大鼠,小鼠或细菌(16S和23S rRNA)样本的处理,通常将预先混合的寡核苷酸添加到RNA中,然后让它们与rRNA进行杂交,以便进行下一步的清除。其它高丰度的转录本,例如珠蛋白(globin)或线粒体RNA也可以按照类似的方法去除。pull-out方法结合了生物素化的探针和链霉素包裹的磁珠,它们可以用于除去寡聚的rRNA复合物,留下剩余的RNA用于建库例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA复合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近对这些方法的比较说明,在高质量的RNA中,这两种方法都可以将rRNA降低至后续RNA-seq读长的20%以下。但是,作者说明了,RNase H方法比pull-out法的稳定性要强,并且比较不同试剂盒时,最后得到的DGE长度的偏倚比较明显。作者还描述了另外一种类似于RNase H的方法,这种方法表现不错,并且以前没有报道过。ZapR方法是Takara Bio的一项专有技术,它使用一种酶来降解RNA-seq文中的rRNA片段。rRNA剔除方法的一个局限是,相比对oligo-dT RNA测序方法,rRNA剔除方法需要更高的测序深度,主要是因为里面还会存有一定的rRNA。

Oligo-dT和rRNA剔除法都可以用于后续实验的DGE分析,研究者们可能会默认使用以前在他们的实验室中使用的方法或最容易使用的方法。然而,对于这些方法的使用应该考虑一些因素,尤其是那些易降解的样本,另外,WTA方法会检测到更多的转录本,但是其实验成本要高于oligo-dT方法。

富集的RNA 3ʹ末端用于Tag RNA-seq以及可变多聚腺苷酸分析(Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis.) 标准的短读长Illumina方法需要对每个样本生成1000万到3000万条(10M到30M条)读长用于高质量的DGE分析。对于那些专注于基因水平表达,并从事大型或高度重复实验的研究者们,或资源受限的研究者来说,可以选择使用3ʹtag计数。由于测序集中在转录本的3ʹ末端,因此需要的读长(reads)更少,这就降低了成本,并且一次测序的样本数目也可以更多。富集的3ʹ末端也可以用于确定单个转录本的poly(A)位点,而由于mRNA前体上存在的APA,其3‘末端可能会发生变化。(群主批注:目前单细胞转录组商业王者10X就是采用这种方法,仅仅是对3ʹ末端测序)

3ʹ mRNA-seq方法会产生每个转录本的单个标签读长(tag read),这些读长来源于3ʹ末端,这个标签(tag)丰度与转录本的丰度是成正比的。标签测序法(tag-sequencing protocols),例如QuantSeq(Lexogen, Austria)通常比标准RNA-seq法流程更为简单。标签测序法已经进行了优化,这种方法使随机引物或锚定的oligo-dT-primed来进行cDNA合成,从而并不需要poly(A)富集这一步骤,并在cDNA合成后立即进行PCR,从而取代了接头连接步骤。这种方法可以在低测序深度上实现与标准RNA-seq类似的灵敏度水平,因此,这种方法可以使用多路复用的形式实现多个文库的同步测序。这种建库方法的数据分析也进行了简化,因为不需要外显子连接检测和基因长度测序读长的归一化。但是,3ʹ mRNA-seq方法可能会被受到转录本同聚区(homopolymeric regions0的影响,这会导至错误标签;这种方法只能提供非常有限的异构体分析,这就会抵消它们较低测序深度带来的任何成本收益,尤其是对于那些仅够一次使用的样本来说。

mRNAs的APA化会产生3ʹ UTR长度不等的异构体。对于一个特定的基因来说,它不仅产生了这个基因的多个亚型,而且由于3ʹUTR中存在着顺式调控元件,这也会影响该转录本的调控。这种方法可以使用那些研究APA的研究者们更详细地研究miRNA的调控作用,mRNA的稳定和定位,以及mRNA的翻译。APA法指在富集转录本的3ʹ末端,从而提升信号与灵敏度,而前面提到的标签测序法非常适合此目的。其它方法多聚腺苷酸位点测序(polyadenylation site sequencing,PAS-seq),这种方法可以将mRNA打断为150bp左右的片段,并且使用oligo-dT标记的模板转换来生成cDNA用于测序,其中的80%读长就来源于3ʹUTR。TAIL-seq方法能不使用oligo-dT,在对RNA进行打断之前,这种方法会剔除rRNA,并将3ʹ-RNA接头连到的poly(A)的尾部。当片段化后,再加上5ʹ-RNA接头就完成了RNA-seq文库的制备。在RNA-蛋白分析方法中也能评估APA,例如紫外交联免疫沉淀(cross- linking immunoprecipitation, CLIP)测序。

富集的RNA 5ʹ末端用于起始位点回贴(Enriching RNA 5ʹends for transcription start- site mapping) 使用富集7-甲基鸟苷5ʹ加帽RNA(7-methylguanosine 5ʹ-capped RNA)也可以进行DGE分析,这种方法可以用来鉴定启动子和转录起始位点(TSSs)。现存有几种方法都可以实现这个目的,但是这些方法很少作为常规手段来进行使用。在对基因表达的加帽分析(CAGE, cap analysis of gene expression),以及用于基因表达分析的启动子的RNA注释和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,当使用随机引物生成第一链cDNA后,mRNA 5ʹ的帽子结构就被生物素化,这就可以将5ʹ cDNA通过链霉亲和素进行富集。CAGE使用II型限制性内切酶来生成短的cDNA标签,这种酶会从5ʹ端的接头下游切割21-27p的核核苷酸。相比之下,RAMPAGE操作则使用模板转换(template switching)来生成较长的cDNA,这个cDNAs随后被富集起来,用于测序。单细胞标签逆转录测序技术(single-cell-tagged reverse transcription sequencing, STRT-seq)能够在单细胞水平上实现TSS的回贴(mapping)。STRT-seq技术使用生物素化的模板转换oligos来生成cDNA,被磁珠捕获后,就在5ʹ末端进行片段化,产生短的cDNA标签。作为CAGE基础的5ʹ末端的加帽技术是由日本理化所(Riken)开发的,这种技术用于早期功能基因组学实验中,使全长cDNA克隆数量最大化。日本理化所主导的小鼠功能注释(FANTOM, Functional Annotation of the Mouse)协会通过阐明了1300多个人类和小鼠原代细胞,组织和细胞系的TSS,这充分显示了CAGE的强大。在最近一些方法比较中,CAGE也表示不俗。但是作者却报道说,仅使用5ʹ末端测序产生的假阳性TSS峰也是最多的,他们建议使用正交方法进一步来确认阳性,例如DNase I的回贴或H3K4me3染色质免疫沉淀测序(ChIP-seq)。

4.3 使用唯一分子标识符来检测PCR重复

RNA-seq数据通常具有较高的重复率(duplication rates),也就是说许多测序读长会回贴到转录组的相同位置。与全基因组测序不同的是,在全基因组测序中,重复的读长被以认为是PCR这一步中出现的技术偏倚导至的,它会被移除,而在RNA-seq中,这些重复的读长则被认为是真正的生物学信号并被保留。在一个样本中,数百万个起始RNA分子也许代表了高表达的转录本,当对cDNA进行测序时,就会发现很多片段是相同的。因此,在比对(alignment)过程中,并不建议通过计算去除那些不必要的重复,因为这些重复中很多是真正的生物信号。当使用单端测序(single-end sequencing)时更是如此,因为一对片段中只要一端相同,就可以被认为是一个重复(duplicate),至于双端测序(paired-end sequencing),两端必须在同一位置时才能被认为是一个重复,但这种情况很少。但是,由于PCR偏倚,在制备cDNA文库时,还会存在着某种程度上技术重复,并且PCR复制偏倚是一种质控问题,它有可能对RNA-seq实验结果造成影响时,很难区分出这些技术重复与生物重复的程度。

现在已经提到将UMIs作为一种解释扩增偏倚的方法。在扩增前将随机UMIs添加到cDNA分子中,使得能够确认PCR重复,并且可以在后续的数据分析中将其除去,同时保护真正的生物学重复,从而改善基因表达的量化和等位基因频率估计的效果。当一对测序读长被确认为一个技术重复时,它们应该包括相同的UMI,并且被回贴到转录组中相同的位置(一端或两端,这取决于使用的是单端测序还是双端测序)。

UMIs已经被证明能够降低变异和错误发现率来提升RNA-seq中的DGE数据分析,并且这种方法在单细胞数据分析方面也有着重要作用,单细胞数据中的扩增偏倚可能更为严重。当试图在RNA-seq数据中进行变异检测(variant calling)时,UMIs也非常有用。虽然高表达的转录本可以产生适合这种变异检测的高覆盖率,尤其是包含了了这种重复时,但UMIs可以用于去他可能导至第二位基因频率错误计算的扩增假象。UMIs正在成为单细胞RNA-seq(scRNA-seq)的文库制备试剂盒中的标准,同时它也日益频繁地用于常规RNA-seq。

4.4 提高降解RNA的分析

RNA-seq文库制备方法的发展也改进了低质量或降解RNA的分析,例如从临床相关获得的那些用福尔马林固定石蜡包埋(FFPE)块存储的样本中的RNA。低质量的RNA会导至不均匀的基因覆盖率,更高的DGE假阳性率和更高的重复率,它们与文库的复杂性呈负相关。但是,文库的制备方法已经被改良,改良后的方法能降低RNA降解的影响。这些方法可能在基于RNA-seq的诊断技术的发展中显得尤为重要,例如将来有可能出现的类似于OncotypeDX(目前并不是测序分析)的诊断,这种试剂盒基于21个基因RNA的标签来预测乳腺癌的复发。虽然现在有几种方法可以使用,但是比较后发现两种方法表现最好,即RNase H与RNA exome。我们前面提到,RNase H法使用核酸本科来降低RNA:DNA复合物中的rRNA,但是它却能阻止mRNA的降解。RNA exome方法使用类似于外显子测序(exome sequencing)那样的方法,使用寡核苷酸探针来捕获RNA-seq文库分子。这两种方法都能通过减少rRNA,同时不影响mRNA的手段来产生高质量和高度一致的基因表达数据。3ʹ末端标记测序技术与扩增子测序(在PCR扩增中能产生超过2万个外显子扩增子)方法也可以用于分析降低的RNA,但是这两种方法并没有RNase H方法使用广泛。

五、设计更好的RNA-seq实验

仔细设计DGE RNA-seq实验对于获取高质量和生物意义数据有着非常重要的意义。尤其是要考虑到复制的层次,测序深度以及单端还是双端测序。

5.1 重复与实验功效(replication and experimental power)

在一个实验中,足够的生物学重复(biological replicates)能够捕获不同样本之间的生物学变异;在定量分析中的置信度依赖于测序深度与读长长度。虽然RNA-seq比芯片表现了更低的技术偏倚,但是生物系统中固有的随机变化都要求任何RNA-seq实验要做生物学重复。使用额外的重复能够确定异常样本,在必要情况下,在进行生物学分析之前,移除这些异常样本或降低这些异常样本的权重。确定生物学重复需要考虑几个因素,包括效应大小(effect size),组内变异,可接受的假阳性和假阴性阈值,以及最大样本数目,有的时候还需要RNA-seq实验设计工具或功效(power)计算工具的辅助。

在一个实验中要想确定一个合适的生物学重复并非是一件简单的事情. 一项48个重复的酵母研究表明,当使用3个生物学重复时,计算样本用于DGE分析的工具只能检测出20-40%的差异表达基因。研究表明,至少应该使用6个生物学重复,这个数量要超过文献中常用的3到4个生物重复的数量。最近的一项研究表明,4个生物学重复可能足够的,但是研究指出,在确定合适的重复数目之前,需要做一个预实验来确定生物样本的方差。对于高度多样化的样本,例如来自癌症患者肿瘤的临床组织,可能需要更多的重复,以便能以更高的置信度来确定基因的变化。

5.2 确定合适的读取深度(Determining the optimal read depth)

一旦文制备好,就需要决定对它们进行多深的测序。读取深度指的是,每个样本获得的测序读长的目标数目。对于真核基因组中的常规RNA-seq DGE分析来说,一般认为每个样本需要100万-300万条读长(也就是我们常说的10M到30M数量)。但是,在多个物种中的实验结果显示当每个样本的测序读长数量为1M时,那么这个数量级的测序读长提供的转录本丰度信息与转录组中表达最高表达量的一半的转录本30M测序提供的丰度信息类似。如果实验的重点是关注那些最高表达相对较大变化的基因,并且如果有足够的生物学重复,那么就可以使用较低深度的测序就能解决驱动实验的假设。测序完成后,通过检查读长在样本之间的分布以及检查饱和曲线就能评估进一步的测序能够增加实验的灵敏度。随着测序通量的增加,为了控制技术偏倚,可以将一个实验的所有样本都添加一个“混合”文库中进行测序,这已经成了标准做法。一次测序所需要读长总数则是样本数乘以读取深度;然后根据生成所需的读长总数来对这个混合文库进行多次测序。这种合并需要严格检测每个样本RNA-seq文库的浓度,并假设每个文库中的cDNA量相对均值(低方差),因此总的读长数目就会平均地分布在每个样本上。在进行一次昂贵的,多泳道(lane)测序之前,运行单个泳道以验证样本之间的低方差通常是值得的。

5.3 选择参数:测序长度,单端测序或双端测序

最终的测序参数包括测序长度,单端测序还是双端测序。在许多测序应用中,测序读长的长度对于数据的利用有着重要的影响,因此更长的读长可以使测序的DNA覆盖率更高。当使用RNA-seq来进行DGE分析时这种方法并不适用,其中重要的原因则是,确定每个读长来源于转录组的哪个位置的能力有限。一旦一个读长能够明确其回贴位置,那么较长的读长在基于量化的分析中就不会再提供太多的价值。对于那些更定性的RNA-seq分析来说,例如特定异构体的鉴定,更长的读长可能更有用。

单端测序与双端测面临的问题是类似的。在单端测序中,每个cDNA片段只有一个末端(3ʹ端或5ʹ端)用于产生测序读长,但双端测序则是一个片段产生2条读长(一个是3ʹ端,一个是5ʹ端)。在那些需要尽可能高的核苷酸覆盖率的分析实验中,长读长双端测序可能更好。然后,DGE分析不需要对转录本片段的每个碱基都进行测序,在DGE分析中,研究者只需要比对后,统计出那些回贴到转录本上的读长数目即可。例如,通过比较测序读长发现,“短”的50bp单端测序与“长”的100bp双端测序所产生的DGE结果没有区别。这是因为单端测序足以鉴定出大多数测序片段来源的基因。同样的研究表明,使用短的单端测序降低了检测出异构体的能力,因为跨越剪接连接的读长较少。双端测序还有助于消除读长回贴的歧义,并对可变外显子量化(alternative-exon quantification),融合转录本检测和从头开始(de novo)的转录本发现,尤其是处理那些没有很好注释的转录本来说,双端测序更是首选。

在实际应用中,单端测序或双端测序之间的选择通常基于成本或研究者们可用的测序技术。在Illumina NovaSeq发布之前,在多数情况下,每M读长的单端测序的成本要低于双端测序,因此,在相同实验成本的前提下,单端测序能够实现更高的复制或读长深度。

在Illumina NovaSeq发布之前,在大多数情况下,单端测序的每百万次读取的成本低于成对末端测序,因此允许以相同的实验成本进行更高的复制或读取深度。当选择了更多的短单端测序读长和产生更长的双端测序读长后,那么增加读取深度将对提高DGE实验的灵敏度产生更大的影响。

六、RNA-seq数据分析

用于分析测序读长以确定差异表达的计算方法的数量在过去10年里大量增加,并且即使对于最简单的DGE分析来说,在分析实践中,每个步骤也存在着大量的差异。然而,每个步骤都可以使用不同方法,这些方法的不同组合会对从数据中得到的生物学结论产生重要的影响。这些工具的最佳组织取决于正在研究的特定生物学问题,以及可用的计算机资源。虽然有着尽可能多的排列组合,但是我们的重点在于研究,每个世界大在样本之间的差异表达的可能性的工具和技术。针对这个目标,我们可以将分析过程划分为4个阶段(FIG 2;TABLE 2)。

  1. 第1阶段是将一个测序平台产生的原始测序读长导入工具,并将这些读长回贴到转录组上。
  2. 第2阶段,是对每个基因或转录本相关的读长数目进行定量(表达矩阵)。这一过程涉及一个或多个不同的比对(alignment),组装(assembly)与定量(quantification)亚过程,或者是可以在单个步骤中从读长计数中,整体地生成表达矩阵。
  3. 第3阶段是通过过滤低表达特征来改变表达矩阵,这一步的关键步骤是对原始读长计数进行归一化,用于解释样本之间的技术差异。
  4. 第4阶段是样本组之间的统计建模与协变量(covariates),以及计算与差异表达相关的置信统计量。

Figure2-差异基因表达的RNA-seq数据分析流程

Figure 2-差异基因表达的RNA-seq数据分析流程。差异基因表达(DGE)分析的第一步是原始RNA测序读长的FASTQ格式的数据,DGE的分析有多种方式。主流的分析流程有三种(用实线划的三个方框,分别用A,B和C表示),并且图上还列出了许多替代工具(用虚线表示)。

在A分析流程中,比对工具例如TopHat,STAR或HISAT2使用一个参考基因组来将读长回贴到基因组的位置上,然后使用一些定量工具,例如HTSeq和featureCounts,来将读长比对于基因的特征上。在归一化后(通常归一化的方式都内嵌到了一些分析工具,例如TMM),基因表达就通过一些计建模工具,例如edgeR,DESeq2和limma+voom进行计算,计算结果是一些差异表达基因或转录本的列表,这数据用于下一步的可视化和生物学解释。

在B分析流程中,使用一些较新的免比对工具,例如Kallisto与Salmon,这些工具会在一步操作中组装转录组并对相应的转录本进行定量。这些工具的输出结果通常是转录本定量的一些估计值(例如tximport,TXI),然后通过与A分析流程中相同的归一化和统计建模,产生出差异基因或转录本列表。

在C分析流程中,第一步是比对读长(这一步的工具通常是TopHat,虽然有些分析方法也会用STAR与HISAT),接头使用CuffLinks来处理原始读长,再然后是使用CuffDiff2包来输出转录本丰度的估计值,以及一个差异表达基因或转录本的列表。

其它常用的工具还包括StringTie,这个工具使用TopHat(或类似工具)的输出结果来组装一个转录本模型,然后将结果输出到RSEM或MMSEQ中,用于估计转录本的丰度值,最后将转录本的丰度值输出给Ballgown来计算差异表达基因或转录本。而SOAPdenovo-trans这个工具则能同时对读长进行比和组装,其结果用于输入给RSEM或MMSEQ。

TABLE2-RNA-seq数据分析工具

6.1 第1阶段-测序读长的比对(alignment)与组装(assembly)

测序完成后,分析的起点就是数据文件,这个数据文件包含了测序计数的碱基,这些数据文件通常是以FASTQ文件的格式存在。处理这些FASTQ文件最常见的第一步操作就是将测序读长回贴到已知的转录组上(或已经注释的基因组上),将每个测序读长转换为一个或多个基因组坐标。这一过程可以使用多个不同的比对工具,例如TopHat,STAR或HISAT,它们都依赖于一个参考基因组。由于测序的cDNA都源于RNA,而RNA有可能跨外显子边界,因此当与参考基因组(含有内含子与外显子)进行比对时,这些工具进行一个剪接比对后,测序读长之间会出现一些间隙。

如果测序的物种没有一个可用的高质量基因组注释(含有已经知的外显子边界),或者说如果希望将测序读长与转录本(而不是基因)关联起来,那么可以使用比对的读长进行转录组的组装。一些组装工具,例如StringTie,SOAPdenovo-Trans使用利用那些已经比对好的结果中的空隙来推测其外显子边界,以及可能的剪接位点。当参考基因组注释没有或者是不完整时,或者是你感兴趣的组织(例如在肿瘤组织)中转录本异常的情况下,这些从头组装转录本的工具尤其好用。当使用的是双端测序和/或更长的测序技术时,这种转录组组装方法效果更好,因为这些测序技术有更大的可能性跨越了剪接位点。但是,从RNA-seq数据中进行转录本的完整组装对于计算DGE来说,并不是一个必需的步骤。

最近,已经开发出了计算高效的“免比对”(alignment-free)工具,例如Sailfish,Kallisto与Salmon,这些工具可以直接将测序读长与转录本进行关联,从而无需单独的定量步骤(参考后面的第2阶段部分)。这些工具在那些表征更高丰度(以及更长的)转录本方面表现得非常良好;然后它们在那些定量低丰度或短转录本方面表现不佳。

用于将测序读长回贴到转录本的不同的工具在它们如何对测序的子集进行分配方面有着显著的差异,这会影响最终的表达估计值。当有来自一个不同基因,伪基因或转录本的多个读长时,这种效果尤为明显。一项比对12个基因表达估计方法的比较显示,一些比对方法低估了许多与临床相关的基因的表达,这主要是由于其并不精确的回贴读长所导至的。在RNA-seq数据的计算分析中,如何将多个回贴的读长合理进行分析仍然是一个值得研究的方向。通常的做法是将这些读长排除在下一步的分析之外,但这可能会使结果产生偏(参考阶段2-转录本丰度的量化)。其它的估计包括生成“合并“表达特征,这些特征包含了那些共同回贴后的读长的重叠区域,以及要在随后的置信度计算中,对每个估计的基因的回贴的不确定性进行估计。

6.2 第2阶段-转录本丰度的量化

一旦读长被回贴到基因组的位置或转录组的位置,接下来的步骤就是将这些读长分配到基因或转录本上,以确定它们的丰度。不同的比较研究表明,在量化步骤中采用的不同的方法对最终的结果影响最大,这种影响甚至超过了第1步中比对工具的选择。对每个基因(即该基因所有转录本的亚型)测序读长丰度的量化依赖于转录组注释来对那些重叠到已知基因上的测序读长进行量化。但是,使用短读长对测序读长进行特定异构体分配来说还需要一个估计步骤,因为许多读长并不能跨越剪接位点,因此它们无法精确地分配给特定的异构体。当一个基因的主要表达形式是在不同长度的转录本之间进行转换时,那么即使在仅研究基因层面的差异表达分析的前提下,对这些转录本进行定量则会产生一个更加精确的结果。例如,在一个样本中,一个主要的转录本也许只有另外一个样本中同样转录本的一半长度,但是前者的表达量是后者的2倍,那么单纯地基因基因定量的工具无法区分这个转录本的差异表达。

常用的量化工具包括RSEM,CuffLinks,MMSeq与HTSeq以及前面提到的那些免比对工具。一些基于读长计算的工具,例如HTSeq(或者是R equivalent,featureCounts)通常会丢弃许多比对好的读长,包括那些回贴到多个位置的读长,或者是重叠多个表达特征的读长。其结果就是,在随后的分析中清除了那些同源和重叠的转录本。RSEM会使用期望最大化的方法来分配那些比对不明的读长,Kallisto这个无参比对工具会将比对不明的读长包括在它们相应的转录本计数中,从而导至结果偏倚。使用tximport包可以将转录本丰度估计转化为读长计数值(read count equivalents)。量化步骤中产生的结果通常会合并为一个表达矩阵,在这个矩阵中,每一行是表达特征(基因或转录本),每一列是样本名,表达矩阵中的值要和是实际的读长值,要么是一种估计丰度。

6.3 第3阶段-过滤和归一化

通常来说,定量后的基因或转录本计数结果还需要过滤和归一化,从而用于解释读长深度,表达模式以及技术偏倚。过滤用于去除那些不均一的低读长丰度特征的值,从而提高对那些真正差异表达值的检测能力。而对表达矩阵进行归一化则更加复杂。直接转换可以调整丰度值,以便能更加说明GC含量的差异以及读长深度。早期用于归一化的方法就是RPKM,但这种方法现在已经淘汰,它已经被那些能够校正样本之间更细微差异的方法所取代,例如四分位数法或中位数归一法。

广泛的研究表明,归一化方法的选择会对最终的结果以及生物学结论产生重要的影响。大多数进行归一化的算法依赖于两个重要的假设:第一,大多数基因的表达水平在重复的样本组之间保持不变;第二,不同的样本组在总体的mRNA水平上不表现出显著差异。当这些基础假设不成立时,那么就需要慎重考虑是否进行归一化,以及如何进行归一化。例如,如果一些基因在一个样本中高表达,同时相同的基因,以及另外的一些基因在同一组中的另外一个样本里正常表达,如果对读长深度进行简单的归一化则明显不够,因为相同数目的测序读长会分配到第二个样本里更多的基因上面。归一化过程,例如截断均值化M值(The Trimmed Mean of M-values,TMM)方法(它已经整合到的edgeR包中)就能解决这个问题。选择一个合适的归一化方法或许很困难;一种做法就是深度使用多种方法进行分析,然后比较它们结果的一致性。如果结果对于归一化方法高度敏度,则应该对数据进行进一步的探索,以确定差异来源。但是,比较不同的归一化方法时,要谨慎确保这种归一化方法的比较不是为了选择与原始假设最兼容的归一化方法。

处理这些问题的一种方法的spike-in control RNAs,这种方法会引入一些外源已知的RNA序列,这些外源已知的RNA序列已知,浓度已知,在建库的过程中,将它们添加到样本中。RNA-seq中的Spike-ins方法包括外部RNA控制协会混合物(External RNA Controls Consortium mix, ERCCs),spike-in RNA突变物(spike-in RNA variants, SIRVs)与测序spike-ins(sequencing spike-ins, Sequins)。由于预先知道spike-in的浓度,这些浓度直接与生成的读长数相关,因为就可以对这些来自样本转录的表达水平进行校正。也有人指出,如果不进行spike-in控制时,那么就不能对那些有强烈倍数变化基因的实验进行分析。然后在实践中,很难在预设水平上一致地整合spike-ins,并且它们在基因水平上对测序读长数目进行归一化比转录本更加可靠,因为在一个样本中,每个异构体的表达水平不同。目前,spike-in控制法并没有在发表RNA-seq DGE实验中得到广泛使用,如果这种方法被进一步改进,提高其一致性的话,则这种方法会得到广泛使用,但现在很多研究者们在他们的单细胞实验(这种实验里会更加广泛地使用spike-in)使用了这种方法。

6.4 第4阶段-差异表达的统计建模

一旦测序读长被处理为表达矩阵,那么就可以对实验进行统计建模,从而确定哪些转录本发生了改变。一些工具可以达到这些目的;其中一些工具会对基因水平的读长数目进行统计建模,而一些则依赖于转录本水平的估计。基因水平的工具通常依赖于比对好的读长数目,使用广义线性模型(Generalized Linear Models)处理这些数据,从而能够评估复杂的实验设计。这些工具包括edgeR,DESeq2以及limma+voom,这些工具能够进行有效地计算,并提供比较结果。对差异异构体表达进行统计建模的工具包括CuffDiff,MMSEQ与Ballgown,这些工具通常需要更多的算力(computational power),并且不同工具的结果中的信息量更大。但是,在进行选择差异表达工具之前做的那些工作,例如比对,定量或过滤以及归一化这些操作对最终结果的总体方差会产生更大的影响。

6.5 常规RNA-seq进阶

源于整块组织和/或大量细胞的RNA-seq数据已经彻底改变了我们对生物学的理解,但是这种常规的RNA-seq无法轻易地分辨出特定的细胞类型,也无法保存空间信息,而这两个信息都是理解生物系统复杂性的关键因素。促进研究者们从常规的RNA-seq走出去的情形与常规RNA-seq当初出现的理由类似,但这种进阶能够能够解决很多不同的问题。单细胞测序让人们发现了,即使在被认为研究透彻的疾病背后,还存在着一些未知细胞类型,例如发现了离子细胞(ionocyte cell),这类细胞可能与囊性纤维化疾病有关。空间分辨RNA-seq则提示了在实体组织中细胞与细胞之间的相互作用,例如发现了成年心脏组织中一小群胎儿标记基因表达的细胞。虽然在可预见的未来,常规RNA-seq仍然是一个占据主导地位的工具。但是,单细胞测序与分析方法正在快速地被研究者利用,并且随着空间RNA-seq方法的成熟,它们有可能成为常规RNA-seq分析中的一部分。这两种方法都将提高我们对多细胞生物体复杂性的理解,它们都有可能与常规RNA-seq方法结合使用。在这里我们简单描述一下主要的单细胞测序以及空间RNA-seq方法,以及它们与常规RNA-seq的不同之处,以及新的研究者们如何着手。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn