RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。

官网: http://www.repeatmasker.org/

一、Repeats的分类

Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。

基因组中的repeats依据其序列特征分成2类:串联重复(tandem repeats) 和 散在分布在基因组中的重复序列(interspersed repeats).其中第二类主要是transposable elements(TEs).

第一类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).

TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。

class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。

class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。

重复序列的种类:

  • Tandem repeats 串连重复
    • Satellite DNA 卫星DNA
    • Variable number tandem repeat /Minisatellite 小卫星
    • Short tandem repeat(STR)/Microsatellite (Trinucleotide repeat disorders)微卫星
  • Interspersed repeats 散落重复
    • Transposon (Transposable elements (TEs) )转座子
    • Retrotransposon 反转录转座子
    • SINEs – Alu sequence, MIR 短散落元件
    • LINEs – LINE1, LINE2 长散落元件
    • LTRs – HERV, MER4, retroposon 长末端重复
  • DNA transposon DNA转座子
    • MER1, MER2, Mariners
    • TIR(Terminal Inverted Repeat) 末端方向重复

Discovery (发现新的)和Detect (从已知中确认) transposable elements的方法
transposable_elements

二、RepeatMasker的安装

安装详见
(这个步骤我没弄)

三、RepeatMasker具体参数

RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output

参数详解:

-pa(rallel) [number]
 The number of processors to use in parallel (only works for batch
 files or sequences over 50 kb)
 -species 
 Specify the species or clade of the input sequence. The species name
 must be a valid NCBI Taxonomy Database species name and be contained
 in the RepeatMasker repeat database. Some examples are:
     -species human
     -species mouse
     -species rattus
    -species "ciona savignyi"
    -species arabidopsis
-xsmall
 Returns repetitive regions in lowercase (rest capitals) rather than
 masked

四、报错

1. Repeatmasker genome ID length < 50
序列名字长度不超过50个字符即可

参考资料:
http://fhqdddddd.blog.163.com/blog/static/1869915420139160262497/
https://groups.google.com/forum/#!topic/maker-devel/irorQYQO79s
Identifying repeats and transposable elements in sequenced genomes: how to find your way through the dense forest of programs。E Lerat。Heredity (2010) 104, 520–533; doi:10.1038/hdy.2009.165; published online 25 November 2009
文献《Discovering and detecting transposable elements in genome sequences》

One thought on “RepeatMasker

发表评论

电子邮件地址不会被公开。 必填项已用*标注