【2.1.1】RepeatMasker

RepeatMasker是一款用于寻找DNA序列中中间重复序列和低复杂度DNA序列的软件。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。RepeatMasker 使用序列比较的工具包括:nhmmer, cross_match, ABBlast/WUBlast, RMBlast and Decypher。数据库位已经验证的重复序列数据库,目前也支持Dfam ( profile HMM library derived from Repbase sequences ) and Repbase。

官网: http://www.repeatmasker.org/

一、Repeats的分类

Transposable elements (TE)跟基因组结构,基因组大小,基因组重拍,host gene ,进化有关。从而影响基因组测序、组装、注释和序列比对。这样的结构在基因组中显得尤为重要。

基因组中的repeats依据其序列特征分成2类:

  • 串联重复(tandem repeats)
  • 散在分布在基因组中的重复序列(interspersed repeats)。主要是transposable elements(TEs).

第一类串联重复包含:microsatellites 或 simple sequence repeats(1-6个碱基为一个重复单元) 和 minisatellites(10-60个碱基的长序列为一个重复单元).

TEs包含2种类型:class-I TEs通过RNA介导的(copy and paste)机制进行转座;class-II TEs通过DNA介导的(cut and paste)机制来转座. 前者称为retroelements,后者称为DNA transposons。

class-I TEs中主要由LTR(long terminal repeat)构成。LTR的部分序列可能具有编码功能。而non-LTR则包含2个子类:LINEs(long interspersed nuclear elements)和SINEs(short interspersed elements),其中前者可能具有编码功能,后者则没有。

class-II TEs中加入了一个子类 MITEs(miniature inverted repeat transposable elements),基于DNA的转座因子,但是确通过”copy and paste”的机制来转座(Wicker et al., 2007)。

重复序列的种类

  • Tandem repeats 串连重复
    • Satellite DNA 卫星DNA
    • Variable number tandem repeat /Minisatellite 小卫星
    • Short tandem repeat(STR)/Microsatellite (Trinucleotide repeat disorders)微卫星
  • Interspersed repeats 散落重复
    • Transposon (Transposable elements (TEs) )转座子
    • Retrotransposon 反转录转座子
    • SINEs - Alu sequence, MIR 短散落元件
    • LINEs - LINE1, LINE2 长散落元件
    • LTRs - HERV, MER4, retroposon 长末端重复
  • DNA transposon DNA转座子
    • MER1, MER2, Mariners
    • TIR(Terminal Inverted Repeat) 末端方向重复

Discovery (发现新的)和Detect (从已知中确认) transposable elements的方法

transposable_elements

二、RepeatMasker的安装

安装详见 (这个步骤我没弄)

三、RepeatMasker具体参数

RepeatMasker -pa 4 -species human -xsmall mask_output/temp.fasta -dir ./mask_output

参数详解:

-pa(rallel) [number]
 The number of processors to use in parallel (only works for batch
 files or sequences over 50 kb)
 -species
 Specify the species or clade of the input sequence. The species name
 must be a valid NCBI Taxonomy Database species name and be contained
 in the RepeatMasker repeat database. Some examples are:
	 -species human
	 -species mouse
	 -species rattus
	-species "ciona savignyi"
	-species arabidopsis
	-xsmall
 Returns repetitive regions in lowercase (rest capitals) rather than
 masked

四、报错

  1. Repeatmasker genome ID length < 50 序列名字长度不超过50个字符即可

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn