初识CRISPR

一、基本概念

CRISPR/Cas系统,为目前发现存在于大多数细菌与所有的古菌中的一种后天免疫系统,以消灭外来的质体或者噬菌体,并在自身基因组中留下外来基因片段作为“记忆”。全名为常间回文重复序列丛集/常间回文重复序列丛集关联蛋白系统(clustered regularly interspaced short palindromic repeats/CRISPR-associated proteins)。

目前已发现三种不同类型的CRISPR/Cas系统,存在于大约40%和90%已测序的细菌和古菌中。虽然有很多CRISPR–Cas系统需要多种蛋白的参与,但是在很多细菌的胞内都只需要一种内切酶(endonuclease)——Cas9就足够了,我们将这种CRISPR–Cas系统也称作2型系统(type II systems)。其中第二型的组成较为简单,以Cas9蛋白以及向导RNA(gRNA)为核心的组成。

由于其对DNA干扰(DNAi)的特性(参见RNAi),目前被积极地应用于遗传工程中,作为基因体剪辑工具,与锌指核酸酶(ZFN)及类转录活化因子核酸酶(TALEN)同样利用非同源性末端接合(NHEJ)的机制,于基因体中产生去氧核糖核酸的双股断裂以利剪辑。二型CRISPR/Cas并经由遗传工程的改造应用于哺乳类细胞及斑马鱼的基因体剪辑。其设计简单以及操作容易的特性为最大的优点。未来将可应用在各种不同的模式生物当中。

接近90%的古细菌和40%的细菌的基因组或是质粒中至少存在一个CRISPR基因座。CRISPR基因座由启动子区域和众多的间隔序列(spacers)和重复序列(direct repeats)顺序排列组成。 CRISPR中的高度可变间隔序列主要来源于噬菌体或是质粒,长度范围在21-72 bp,不同的CRISPR基因座包含的间隔序列的数量差异很大,从几个到几百个不等目前发现间隔序列数量最多的CRISPR存在于一种黏液细菌(DSM 14365)中 ,包含587个间隔序列 CRISPR中的重复序列长度范围在21-48 bp,序列并非严格保守,甚至在同一个细菌内的不同CRISPR基因座的重复序列也有不同,但它的5’端和3’端部分为保守序列,分别为GTTT/g和GAAAC 重复序列里还包含部分回文结构,转录出的RNA能形成稳定且保守的二级结构,可能在与Cas蛋白结合形成核糖核蛋白复合物的过程中发挥重要作用

CRISPR的高度可变的间隔区(spacer)获得 指外来入侵的噬菌体或是质粒DNA的一小段DNA序列被整合到宿主菌的基因组,整合的位置位于CRRSPR的5’端的两个重复序列之间(repeats)。 噬菌体或是质粒上与间隔序列对应的序列被称为protospacer,通常protospacer的5‘或是3’端延伸几个碱基序列很保守,被称为PAM (protospacer adjacent motifs),它的长度一般为2-5碱基,一般与protospacer相隔1- 4碱基 首先识别入侵的核酸和扫描外源DNA潜在的PAM,将临近PAM的序列作为候选protospacer; 然后在CRISPR基因座的5’端合成重复序列; 最后新的间隔序列整合到两个重复序列之间

TypeⅡ系统的主要特征是包含一个标志性的Cas9蛋白(分子质量很大的多功能蛋白)参与crRNA的成熟以及降解入侵的噬菌体DNA或是外源质粒; Cas9蛋白包含两个功能结构域,一个在N端,有类似于Ruc核酸酶的活性,一个在中部有类似HNH核酸酶的活性; CRISPR/Cas系统编码tracrRNA(trans-activating crRNA),其指导RNaseⅢ和Cas9完成前体crRNA的成熟 随后tracrRNA还能与成熟的crRNA的重复序列配对形成RNA二聚体,进而和Cas9蛋白结合成核糖核蛋白复合体,发挥识别和降解入侵的外源DNA功能

发现历史

我们今天称为CRISPR的基因组重复丛集,即原核生物拟核DNA链中的丛生重复序列,在1987关于E. coli的一份研究报告中被首次描述。2000年,相似的重复序列在其它真细菌和古细菌中被发现并被命名为短间隔重复序列(Short Regularly Spaced Repeats,SRSR)。2002年SRSR被重命名为CRISPR。其中一部分基因编码的蛋白为核酸酶和解旋酶。。这些关联蛋白(CAS, CRISPR-associated proteins)与CRISPR组成了CRISPR/CAS系统。

工具

网页:http://crispr.u-psud.fr/

非常牛逼,人性化的网页,左上角的CRISPRs finder用来,上传你的序列,返回的结果为每条序列中可能含有的CRISPR:Questionable [*] CRISPRs;Confirmed CRISPRs () 两种

每条序列下预测出来的CRISPR下面还有4个功能,第四个功能search encoded proteins可以用来搜索该预测出来的序列比对到数据库Nr的结果。

预测出来的spacer跟spacer库比对:

http://crispr.u-psud.fr/crispr/BLAST/CRISPRsBlast.php

参考资料: http://zh.wikipedia.org/wiki/CRISPR/Cas_系統 http://blog.sciencenet.cn/blog-614672-689702.html http://wenku.baidu.com/link?url=FSgUpGfi6G8G6CoM-1ujxJkqtLIxPIFwRGg49eE8A1QvI-q-NAniv2AqOR4EBvf0njRqldlC7d2AcsSNN_cWE71nV5faz6OM_qsavexUAUy###

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学