【2.3.4】检测拷贝数变异的工具及算法-PCAWG consensus copy number

October 25, 2022 CallVariant 阅读量：次

先把这个知识点放在这，我也没理解这个背后的逻辑

PCAWG提供的拷贝数变异文件是综合6种不同的拷贝数变异提取工具的结果：

ABSOLUTE
ACEseq
Battenberg
CloneHD
JaBbA
Sclust

由于拷贝数结果的不同取决于segmentation的不同，而对大部分基因组的拷贝数状态的分歧来自于是否发生了整个基因组复制的分歧。因此针对6种方法中的5种首先构建了完整的断点数据，针对一致的断点数据使用6种方法得到拷贝数变异结果，解决了倍性结果的不统一后，对6种方法得到的每个segment寻求major allele和minor allele的状态的一致性，最后对每个肿瘤综合6种方法得到纯度结果，对每种方法都给予置信区间和质量星号：克隆性通过（3星），多数投票同意，协议后四舍五入亚克隆拷贝数（2星），调用最好的方法（1星）。3星代表结果非常一致，1星则是结果不那么一致的情况下选一种方法的结果输出。这样来得到最终的完整的拷贝数图谱，包含以下所有列：

major_cn 
minor_cn 
position 
sampleID 
star 
total_cn 
value

工具介绍

1. ABSOLUTE

使用ABSOLUTE算法计算每个样本的纯度、倍性以及绝对DNA拷贝数，在基因组上收集基于片段的覆盖度(来自完整的阅读模板跨度)在基因组上收集，并校正GC含量和匹配偏差。【？】使用PCAWG的正常样本来进行切线归一化(tangent-normalization)处理。基于杂合性位点计算位点特异的拷贝数，使用CBS算法来得到segmentation。采用Nelder-Mead算法搜索可能的纯度和倍性解的空间，并对它们进行排序。对亚克隆拷贝数片段进行Dirichlet过程聚类，以标注相同的亚克隆拷贝数聚类状态。

2. ACEseq

使用ACEseq计算绝对拷贝数，肿瘤纯度，并估计肿瘤细胞内容，通过结合肿瘤和基因组窗中匹配的正常基因的覆盖率以及相应SNPs的b等位基因频率(BAF)来确定绝对拷贝数。基因组使用PSBCBS包得到segmentation，在分割之前，结构变异断点通过一致的结构变异数据判断，

利用PSCBS包将基因组分割为平等覆盖和不平衡状态的区域，在分割之前，将共识结构变异集定义的结构变异断点合并成片段边界，片段提交到共识断点估计集，通过共识断点得到的片段使用覆盖度和BAF值注释来估计样本的肿瘤细胞内容和倍性。

注：配对的双亲特定CBS(配对的PSCBS)算法利用了CBS方法用于将总CN数据分割为来自SNP阵列的2D非阶段数据。该算法依赖于配对测试(肿瘤)和参考(正常)样本杂交到单独的阵列。

3. Battenberg

使用Battenberg得到绝对拷贝数。针对每个SNP计算BAF和相对logR值，使用GC含量矫正logR值，匹配的正常样本用来获得种系的杂合性SNP，使用分段常数拟合(PCF)对数据进行分段，将结构变异(sv)作为先前建立的中断点，通过对纯度和倍性组合进行网格搜索，拟合克隆拷贝数图谱。

4. CloneHD

使用CloneHD得到绝对拷贝数。cloneHD使用了隐马尔可夫模型来描述样本的拷贝数状态。cloneHD流程的第一步使用的是filterHD算法，filterHD不寻求解释数据中的亚克隆结构，是一种用于模糊分割的通用算法，是一个通用的一维离散数据概率滤波算法，类似于卡尔曼滤波。它是一个具有泊松或二项发射和跳跃扩散传播子的连续状态空间隐马尔可夫模型。它可以用于无标度平滑、模糊数据分割和数据滤波。

5. JaBbA

JaBbA整合paire-end和read depth信号来推断基因组间隔的拷贝数以及重构junction。在PCAWG共识拷贝数分析中，使用了两轮JaBbA，JbBbA的输入数据是bam文件，junction call set，以及初步分割（可选）和纯度/倍性输入，针对初步分割的结果，进一步使用CBS算法来分割得到低维度的常数拷贝数区域。

6. Sclust

使用Sclust进行拷贝数分割，计算肿瘤纯度，肿瘤倍性以及位点特异的拷贝数（包含克隆性的和非克隆性的）。输入数据是肿瘤样本和匹配的正常样本的read counts。read counts后续用来计算肿瘤和正常样本的GC含量，接下来Sclust使用SNP数据，计算正常样本的杂合性位点的B位点频率，随后基于read ratio在数据中找到明显的跳跃来进行初次分割。

二、共识拷贝数获取步骤

6种拷贝数检测的方法都使用了两步步骤：

第一步是把基因组分割为具有恒定拷贝状态的区域
第一步是确定每个片段的克隆和亚克隆拷贝数状态

6种方法产生的分歧结果主要是以下两个元素：

基因组分割的差异
是否发生了全基因组重复(WGD)的不确定性

三、共识拷贝数分割结果的分歧

拷贝数识别工具将一个样本的基因组分割成多个具有稳定拷贝数的区域，为了描述这些片段，需要找到片段之间的断点，断点两侧的拷贝数状态发生了变化，一旦建立起断点，不同的工具则确定每个片段内混合的拷贝数状态，包括主等位基因拷贝的数量，次等位基因拷贝的数量，以及处于这种状态的细胞的比例。

不同的方法得到的断点有差别，有些方法调用的断点比其他方法多一个数量级。，为了解决不同方法考虑的基因组片段不同的问题，建立了共识断点集，所有的方法后续使用共识片段来判断拷贝数状态

四、确定共识拷贝数片段断点的方法

创造了共识策略支持真正的断点，潜在的代价是增加假阳性，创建了完整的断点集。来自结构变异的拷贝数断点被用来量化我们的共识策略的“真阳性”和“假阴性”率。拷贝数方法把共识片段作为输入，但允许合并有相同拷贝数的相邻的片段，但是不允许产生额外的断点从而不会产生额外的片段。因为引入虚假断点的成本要小于缺失断点的成本，缺失断点的底层拷贝数状态确实发生了改变。我们为确定共识断点而开发的算法利用了这样一种见解:相邻区段之间的区域表明了一种方法的不确定性，即描述拷贝数状态变化的断点的确切位置。

参考资料

https://taozyblog.com.cn/post/2021-12-16_cnv_tools/
CEL是什么格式的文件
Dentro, Stefan C., et al. “Characterizing genetic intra-tumor heterogeneity across 2,658 human cancer genomes.” Cell 184.8 (2021): 2239-2254.

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn