3.1.2 mapping文件

一、输入文件的要求

1,文件需要有正确的文件后缀,例如:FASTA文件有.fna 或.fasta,质量得分文件.qual,sff文件的为.sff(文件类型:Structured Fax Format,扩展名为.sff的文件是一个图像文件),mapping文件的后最为.txt

2,文件名中不要有空格,例如:amazon soil.fna可以用amazon_soil.fna

3,用文本编辑TextEdit or TextMate (on Mac), gedit (on Linux), vim, or emacs而不是Microsoft Word来编辑文件(Microsoft Word是word processor)。Mapping 文件和OUT文件可以通过Microsoft Word来编辑,但是应该是tab为分隔符的文本。

二、mapping文件

1,split_libraries.py, beta_diversity_through_plots.py, alpha_rarefaction.py中需要使用Metadatamapping文件

2,mapping文件是使用者来编辑的,这个文件包含样品所有的可以用来分析的信息。一般来说,这个文件需要包含每个样品的名字,每个样品的barcode,linker/primer序列用来扩增样品,必须有#SampleID BarcodeSequence LinkerPrimerSequence Description这几列。

我的是(每一列以Tab键隔开)

#SampleID        BarcodeSequence    LinkerPrimerSequence     Group       Description    
1       CTACCGATTGCG      GGACTACHVGGGTWTCTAAT  SH-C                   SH-C-1
2       TTCACCCAAGGTA   GGACTACHVGGGTWTCTAAT  SH-C                   SH-C-2
3       TCAGCCAGTCATAC GGACTACHVGGGTWTCTAAT  SH-0          SH-0-1
4       CTAAGCGAACCTGTT       GGACTACHVGGGTWTCTAAT  SH-0          SH-0-2

3,每个样品可以单独使用一个map.txt,或者所有的测序结果公用一个Map.txt。

4,每一列必须为字符a-z, A-Z and 1-9,或者“_”,开头必须为字母。字符$, *, ^在里面不容许出现。

5,第一列必须是#SampleID,为可区分的数字,字母或 。每一行的这个值应该是唯一的。

6,第二列必须为BarcodeSequence。split_libraries.py这个脚本可以为测序出来的序列重新编号,这个原理为:样品序列中包含跟map.txt中BarcodeSequence相同的序列,则样品的编号根据map.txt中的SampleID重新编号。每一行的这个值应该是唯一的。

7,第二列必须为LinkerPrimerSequence,为扩增样品的引物。

8,后面的列可以根据样品的特点加以描述,但是每一列必须包含至少两个值,如果没有的话,用NA代替,不要留空格。就是说要指定一些其他的分类什么的,就可以在这个位置设置了。

9,最后一列必须是Description。每一个样品不一样的地方,必须不一样额

10,开头的标题以#开头,后面就不要有空行,空格,或者#。

检查Map.txt

check_id_map.py -m map.txt -o check_id_output/ -p –b

检验出来的文件为 _corrected.txt。但是还是得看,有些重复的编号或者不应该存在的碱基编号等得手动检查出来。

参考资料

qiime输入文件:http://qiime.org/documentation/file_formats.html#metadata-mapping-files

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn