【9.1.1】DNA序列motifs

February 11, 2019 genetalks 阅读量：次

序列基序在基因调控分析中变得越来越重要。需要回答下面的问题：

我们如何定义序列基序
为什么我们应该使用序列标识（sequence logos）而不是共有序列（consensus sequences）来表示它们？
它们与结合亲和力有任何关系吗？
我们如何在DNA海洋中寻找新的主题实例？

一、定义

序列基序是短的，在DNA中反复出现的模式，被认为具有生物学功能。它们通常表示蛋白质的序列特异性结合位点，如核酸酶和转录因子（transcription factors,TF）。其他参与RNA水平的重要过程，包括核糖体结合， mRNA加工（剪接，编辑，多腺苷酸化）和转录终止。。

过去，通常通过DNA酶足迹法(DNase footprinting)和凝胶移位(gel-shift)或reporter construct assays来确定结合位点，而使用SELEX探索人工序列的结合亲和力。如今，计算方法通过在功能相关基因（例如，具有相似表达模式或类似功能注释的基因）上游搜索过表达（和/或保守）DNA模式，产生大量推测的调节序列基序。有一段时间，似乎我们有更多计算预测的序列基序没有已知的匹配转录因子，这些转录因子没有已知结合序列，尽管使用ChIP芯片分析转录因子的全基因组结合的大规模努力正在迅速纠正这种情况。

计算和实验衍生的序列基序的丰富性及其在定义遗传调控网络和破译个体基因调控程序方面日益增长的实用性，使其成为后基因组时代计算生物学的重要工具。

图1 ROX1结合位点和序列基序。（a）3个酿酒酵母基因中已知的基因组几何位点。（b）简并共识序列。（c，d）每个位置的核苷酸频率。（e）序列标识，显示相对于每个位置的信息内容（measure of conservation）的缩放频率。（f）能量标准化标识使用相对熵来调整酿酒酵母中低GC含量。

二、限制酶和共有序列 Restriction enzymes and consensus sequences

在20世纪60年代后期发现的II型限制酶需要以高度序列特异性的方式与它们的DNA靶标结合，因为它们是原始细菌免疫系统的一部分，旨在切割感染噬菌体的病毒DNA。偏离其共有结合位点特异性将等同于可能导致细菌基因组不可逆损伤的自身免疫反应。例如，EcoRI与6聚体GAATTC结合，仅与该序列结合。请注意，这个基序是回文，反映了EcoRI蛋白作为同型二聚体与DNA结合的事实。其他限制酶与简并共有序列结合。例如，HindII与序列GTYRAC结合，其中Y代表’C或T'（吡啶），R代表’A或G'（puRine）。（有关简并共有序列（degenerate consensus）见IUPAC符号列表）

我们可以根据它们的长度和简并性来计算我们期望这些共有序列发生的频率。随机6聚体与EcoRI结合位点匹配的概率是（1/4）^6，因此该位点在随机DNA序列中大约每4^6（= 4,096）bp发生一次。 HindIII结合位点包含两个位置，其中四个碱基中的两个可以匹配(Y代表’C或T'，R代表’A或G')，每4^4×2^2（= 1,024）bp将发生一次。

三、共识或漫画 Consensus or caricature?

其他DNA结合蛋白在序列特异性方面往往不那么挑剔。 1975年，Pribnow发现了’TATAAT盒'，这是一个保守的序列，位于大肠杆菌启动子转录起始位点上游10 bp左右。该基序与以-35为中心的TTGACA基序一起形成核心RNA聚合酶的σ70亚基的结合位点。然而，尽管每个位置具有高度保守性（每个碱基的保守性为54％至82％），但实际上极难找到与该共有序列完全匹配的启动子，大多数启动子仅匹配12个碱基中7-9个。在这种情况下，共有序列不是代表典型的结合序列，而是非常不寻常的序列。事实证明，每个启动子的活性与其与共有序列的匹配程度有关，因此每个基因的活性水平可以通过其-10和-35区域偏离共识的程度进行微调。

在这种情况下，对结合序列的更好描述是通过位置频率矩阵（Position Frequency Matrix，PFM）。我们不仅仅记录每个位置最常见的基数，而是记录每个碱基在已知站点中出现的频率。例如，已知Rox1转录因子结合酿酒酵母基因组中三个基因中的至少八个位点。图1显示了这8个结合位点的多重比对，具有YCHATTGTTCTC的共有序列。（通常情况下，如果一个碱基出现在一半以上的位置，并且至少是第二个最常用碱基的两倍，则显示单个碱基。否则，如果两个碱基出现超过75％，则使用双简并符号，当一个碱基完全不存在时，则三重简并符号。）图1中的频率矩阵及其图形表示清楚地显示了ATTGTT的核心基序，侧翼碱基中的保守性低得多

四、序列标识 Sequence logos

通过缩放图1d中的每个字母堆栈，并对每个碱基处的保守性进行一些测量，我们可以更清楚地了解结合序列。在Schneider和Stephens1开发的“序列标识”中，每个堆栈（stack）都使用该位置的基频信息内容进行缩放：

其中fb，i表示位置i处的基数b的频率。完全保守的位置包含2 bits信息，其中四个基数中的两个出现50％的时间，每个碱基包含1 bits，并且所有四个碱基同样出现的位置通常不包含任何信息。请注意，对于小样本，信息内容往往会过度，因此需要应用小样本校正。这解释了为什么图1e中图案的中心位置显示小于2 bits的信息内容，即使它们在八个已知的结合位点内完全保守。

注意，基序的总信息含量与其在随机DNA序列内发生的预期频率直接相关。例如，部分简并的6-mer HindII结合位点的信息内容是10 bits（每个保守碱基2 bits，每双重简并位置1 bit），其在随机DNA中的预期频率为1/2^10 = 1/1,024。

五、校正背景频率 Correcting for background frequencies

等式（1）假设所有四个碱基在背景基因组DNA中同等地发生。对于诸如大肠杆菌（51％GC）或人类（41％）的生物，这通常是合理的近似值。然而，对于具有更多偏向GC含量的基因组，例如S. cerevisiae（38％），秀丽隐杆线虫（36％），尤其是极端恶性疟原虫（19％）或天蓝色链霉菌（72％），需要校正因子。 Schneider倡导的一种方法是用等指定GC含量的随机DNA的较低熵代替等式（1）中的'2'。更具信息性的方法2是将方程（1）推广到绑定位置相对于背景频率的相对熵（相对于K.K.Kullback-Leibler距离）：

pb是碱基b在基因组中背景频率。这相当于用于测量观测基频和背景基频之间不一致程度的对数似然比（G检验），因此可以再次用于计算基序本身的显着性（以及随机DNA中这种序列的出现频率）。

图1f显示了Rox1结合基序，使用等式（2）校正了S. cerevi-siae基因组DNA的GC含量。与e相比，中心G碱基现在携带的信息多于侧翼A和T碱基，这反映了它在低GC基因组中的出现更为重要的事实。基序的总信息内容是Iseq = 11.27 bits。

六、滚动自己的徽标 Roll your own logos

存在两个免费的Web界面，用于从您最喜欢的DNA对齐生成序列标识：

Steven Brenner的WebLogo（ http://weblogo.berkeley.edu/ ），实施Schneider的原始序列标识，
以及最新的enoLOGOS3（ http://biodev.hgen.pitt.edu/enologos ），使用相对熵。

前者提供了在信息内容上放置误差条的选项，这对于基于少量序列的图案尤其有用。然而，后者提供了更多种输入格式，可变GC内容，以及通过互信息检查非独立碱基的选项。这两个站点也采用不同的方法进行小样本校正。使用enoLOGOS生成图1中的徽标。

转录因子结合位点收集在许多在线数据库中，包括:

TRANSFAC4（ http://www.gene-regulatory.com/pub/databases.html ）
JASPAR5用于多细胞真核生物（ http://jaspar.genereg.net ）
YEASTRACT6（ http://www.yeastract.com/ ）
SCPD7（ http://rulai.cshl.edu/SCPD ）用于S. cerevisiae，
RegulonDB8用于大肠杆菌（ http://regulondb.ccg.unam.mx ）
PRODORIC9用于原核生物（ http://www.prodoric.de/ ），尽管其中一些仍主要集中在共有序列上。

七、结合能量，搜索新的位置

如上所述，DNA结合蛋白与特异性结合位点的亲和力通常与该位点与共有序列的匹配程度相关。然而，并非结合位点中的所有位置都同样容忍不匹配，并且并非给定位置处的所有不匹配都具有相同的效果。

如果我们假设每个位置独立地贡献结合能（在大多数情况下是合理的近似），我们就可以费力地测量所有可能的单碱基变化对结合能的影响。然后，可以使用得到的位置权重矩阵（PWM）W（b，i）来计算序列S的特定结合自由能（相对于随机背景DNA）：其中S（i）是序列S中位置i碱基。

通常，我们只有一个已知结合站点的列表，没有任何关联性信息。如果我们假设基因组DNA是随机的，具有碱基频率pb，则可以优化PWM中的值，使得结合已知结合位点（相对于更丰富的背景DNA）的概率最大化。然后通过以下方式给出最佳权重矩阵：

然后，信息内容Iseq可以被解释为与基因组DNA竞争的对整组已知结合位点的平均特异性结合能的估计。

该PWM可用于在基因组的其余部分内搜索具有高预测结合亲和力的新位置，通常使用基于已知结合位点的得分阈值。不幸的是，这种方法可能导致大量误报，有时会返回数百或数千个推定的结合位点。 Djordjevic开发的一种有前途的替代方案是同时优化权重矩阵和阈值，以便包括所有已知位点，但尽可能少的其他位点，通常会导致更少且更可靠的新位点。

然而，不可避免的是，具有低信息含量的序列基序（即短基序和/或具有大量简并性）将倾向于产生大量相对低亲和力的hits，特别是在大的真核基因组中。据推测，其他因素如染色质结构和协同结合也在确定相关转录因子的体内特异性中起作用。

参考资料

NATURE BIOTECHNOLOGY VOLUME 24 NUMBER 4 APRIL 2006. What are DNA sequence motifs?

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn