Trimmomatic对raw reads的过滤

Trimmomatic是一个针对 Illumina高通量测序的reads trim的工具。既能够针对paired-end 也能弄single ended。它能够利用FASTQ文件(phred + 33 或者是phred + 64 碱基质量格式,取决于Illumina测序的机器)。对于single-ended,一个输入文件和一个输出文件,加上参数。对于paired-end数据,两个输入文件,4个输出文件,分别为2个是’paired’,2个是’unpaired’(一个为forward的,一个为reverse的)

继续阅读“Trimmomatic对raw reads的过滤”

tRFLP中酶切位点的统计

矫情一下:这是我上周日从中午12点到晚上8点,用Python完成的第一个脚本,写完后感觉累坏了。整个写的过程中,就像是在解一道数学应用题,有点点痴迷和陶醉的味道。
脚本目的:两个文件,一个fasta文件,一个OTU文件(每个otu包含很多序列名)。给定每条序列的酶切位点,统计每条序列被切割后片段的长度,最后统计每个otu中不同序列名对应长度的数目。

该脚本下载地址:https://github.com/tiehan/NGS/blob/master/enzyme_site_in_tRFLP

PfamScan及fam数据库

Pfam(http://pfam.sanger.ac.uk/)是一个被广泛使用的蛋白家族数据库,在最新的版本26.0中包含超过13000个手工确定的蛋白家族,Pfam可以通过http://pfam.sanger.ac.uk/使用,他有两个数据库,高质量,手工确定的Pfam-A,自动注释的Pfam-B数据库。后面的数据产生是根据ADDA算法。是对A的补充。

继续阅读“PfamScan及fam数据库”