3.1.2 mapping文件

May 22, 2014 16S 阅读量：次

一、输入文件的要求

1,文件需要有正确的文件后缀，例如：FASTA文件有.fna 或.fasta，质量得分文件.qual，sff文件的为.sff(文件类型：Structured Fax Format,扩展名为.sff的文件是一个图像文件)，mapping文件的后最为.txt

2,文件名中不要有空格，例如：amazon soil.fna可以用amazon_soil.fna

3,用文本编辑TextEdit or TextMate (on Mac), gedit (on Linux), vim, or emacs而不是Microsoft Word来编辑文件（Microsoft Word是word processor）。Mapping 文件和OUT文件可以通过Microsoft Word来编辑，但是应该是tab为分隔符的文本。

二、mapping文件

1,split_libraries.py, beta_diversity_through_plots.py, alpha_rarefaction.py中需要使用Metadatamapping文件

2,mapping文件是使用者来编辑的，这个文件包含样品所有的可以用来分析的信息。一般来说，这个文件需要包含每个样品的名字，每个样品的barcode，linker/primer序列用来扩增样品，必须有#SampleID BarcodeSequence LinkerPrimerSequence Description这几列。

我的是（每一列以Tab键隔开）

#SampleID        BarcodeSequence    LinkerPrimerSequence     Group       Description    
1       CTACCGATTGCG      GGACTACHVGGGTWTCTAAT  SH-C                   SH-C-1
2       TTCACCCAAGGTA   GGACTACHVGGGTWTCTAAT  SH-C                   SH-C-2
3       TCAGCCAGTCATAC GGACTACHVGGGTWTCTAAT  SH-0          SH-0-1
4       CTAAGCGAACCTGTT       GGACTACHVGGGTWTCTAAT  SH-0          SH-0-2

3，每个样品可以单独使用一个map.txt,或者所有的测序结果公用一个Map.txt。

4，每一列必须为字符a-z, A-Z and 1-9，或者“_”，开头必须为字母。字符$, *, ^在里面不容许出现。

5，第一列必须是#SampleID，为可区分的数字，字母或。每一行的这个值应该是唯一的。

6,第二列必须为BarcodeSequence。split_libraries.py这个脚本可以为测序出来的序列重新编号，这个原理为：样品序列中包含跟map.txt中BarcodeSequence相同的序列，则样品的编号根据map.txt中的SampleID重新编号。每一行的这个值应该是唯一的。

7，第二列必须为LinkerPrimerSequence，为扩增样品的引物。

8，后面的列可以根据样品的特点加以描述，但是每一列必须包含至少两个值，如果没有的话，用NA代替，不要留空格。就是说要指定一些其他的分类什么的，就可以在这个位置设置了。

9，最后一列必须是Description。每一个样品不一样的地方，必须不一样额

10，开头的标题以#开头，后面就不要有空行，空格，或者#。

检查Map.txt

check_id_map.py -m map.txt -o check_id_output/ -p –b

检验出来的文件为 _corrected.txt。但是还是得看，有些重复的编号或者不应该存在的碱基编号等得手动检查出来。

参考资料

qiime输入文件：http://qiime.org/documentation/file_formats.html#metadata-mapping-files

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn