usearch--比对,聚类,去除chimera

主页http://drive5.com/usearch/usearch_docs.html

主要有3个作用,见下图。比对,聚类,去除chimera。

他的下载是需要邮箱的认证的。

二、案例

寻找16s

1,下载greengenes 16Ss数据库:(现在最新版本是gg_13_5.fasta.gz)

http://greengenes.secondgenome.com/downloads

ftp://greengenes.microbio.me/greengenes_release/

2,为了更快的搜寻,先将16s基因聚类

usearch –sort  gg_13_5.fasta –output 16Ssorted.fa

usearch –cluster 16Ssorted.fa –id 0.90 –seedsout gg_90.fa

##这里的usearch需要认证的。

3,用数据库中16s基因来寻找我组装后的序列中的16s

makeblastdb –in assembly.fa –dbtype nucl

 blastn –query gg_90.fa –db assembly.fa –num_threds 10 –ma_target_seqs 20 –outfmt 6 –evalue 1e-10 –out gg_blast_results.txt

4,最后,最长匹配的序列提取额出来,“m”设定最短的序列长度

perl \multi-metagenome\misc.scripts\extract.long.hits.from.blast.pl-b gg_blast_results.txt –d assembly.fa -m 500 -o assembly.16S.fa

5,提取出来序列格式如下,可以用RDP或者SINA在线服务器来接着分析。

>68.890.56.834.2446
ATCGATCGATCGATCG…
  Scaffold name
  Start position on the scaffold
  End position on the scaffold
  16S gene length
  Total length of parent scaffold
个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学