【3.1】bed文件格式

BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。

一、数据格式说明

1.1 必须包含的3列

  1. chrom, 染色体或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671 )

  2. chromStart 染色体或scaffold的起始位置,染色体第一个碱基的位置是0

  3. chromEn 染色体或scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99

例如:

chr1  213941196  213942363
chr1  213942363  213943530
chr1  213943530  213944697
chr2  158364697  158365864
chr2  158365864  158367031
chr3  127477031  127478198
chr3  127478198  127479365
chr3  127479365  127480532
chr3  127480532  127481699

1.2 9 个额外的可选列

4.name 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。

5.score 0到1000的分值,如果在注释数据的设定中将原始基线设置为1,那么这个分值会决定现示灰度水平(数字越大,灰度越高),下面的这个表格显示Genome Browser

shade - - - - - - - - -
score in range ≤ 166 167-277 278-388 389-499 500-611 612-722 723-833 834-944 ≥ 945

6.strand 定义链的方向,''+” 或者”-”

7.thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)

8.thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置)

9.itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0, 0), 如果itemRgb设置为’On”, 这个RBG值将决定数据的显示的颜色。

10.blockCount BED行中的block数目,也就是外显子数目

11.blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目

12.blockStarts- 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应.

chr7  127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7  127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0
chr7  127473530  127474697  Pos3  0  +  127473530  127474697  255,0,0
chr7  127474697  127475864  Pos4  0  +  127474697  127475864  255,0,0
chr7  127475864  127477031  Neg1  0  -  127475864  127477031  0,0,255
chr7  127477031  127478198  Neg2  0  -  127477031  127478198  0,0,255
chr7  127478198  127479365  Neg3  0  -  127478198  127479365  0,0,255
chr7  127479365  127480532  Pos5  0  +  127479365  127480532  255,0,0
chr7  127480532  127481699  Neg4  0  -  127480532  127481699  0,0,255

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn