【2.1.1】RepeatMasker
RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。
官网: http://www.repeatmasker.org/
一、Repeats的分类
Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。
基因组中的repeats依据其序列特征分成2类:
- 串联重复(tandem repeats)
- 散在分布在基因组中的重复序列(interspersed repeats)。主要是transposable elements(TEs).
第一类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).
TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。
class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。
class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。
重复序列的种类
- Tandem repeats 串连重复
- Satellite DNA 卫星DNA
- Variable number tandem repeat /Minisatellite 小卫星
- Short tandem repeat(STR)/Microsatellite (Trinucleotide repeat disorders)微卫星
- Interspersed repeats 散落重复
- Transposon (Transposable elements (TEs) )转座子
- Retrotransposon 反转录转座子
- SINEs - Alu sequence, MIR 短散落元件
- LINEs - LINE1, LINE2 长散落元件
- LTRs - HERV, MER4, retroposon 长末端重复
- DNA transposon DNA转座子
- MER1, MER2, Mariners
- TIR(Terminal Inverted Repeat) 末端方向重复
Discovery (发现新的)和Detect (从已知中确认) transposable elements的方法
二、RepeatMasker的安装
安装详见 (这个步骤我没弄)
三、RepeatMasker具体参数
RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output
参数详解:
-pa(rallel) [number]
The number of processors to use in parallel (only works for batch
files or sequences over 50 kb)
-species
Specify the species or clade of the input sequence. The species name
must be a valid NCBI Taxonomy Database species name and be contained
in the RepeatMasker repeat database. Some examples are:
-species human
-species mouse
-species rattus
-species "ciona savignyi"
-species arabidopsis
-xsmall
Returns repetitive regions in lowercase (rest capitals) rather than
masked
四、报错
- Repeatmasker genome ID length < 50 序列名字长度不超过50个字符即可
参考资料
- http://fhqdddddd.blog.163.com/blog/static/1869915420139160262497/
- https://groups.google.com/forum/#!topic/maker-devel/irorQYQO79s
- Identifying repeats and transposable elements in sequenced genomes: how to find your way through the dense forest of programs。E Lerat。Heredity (2010) 104, 520–533; doi:10.1038/hdy.2009.165; published online 25 November 2009
- 文献《Discovering and detecting transposable elements in genome sequences》
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn