Mutect2​案例 / 有或没有正常样本配对的肿瘤体细胞变异检测结果对比

生信宝典

共 9488字,需浏览 19分钟

 · 2022-06-27

前文回顾

1. GATK官方教程 / 概述及工作前的布置

2. GATK教程 / 体细胞短变异检测 (SNV+InDel)流程概览

3. GATK教程 / 变异检测前的数据预处理

4. GATK / 体细胞短变异检测工具Mutect2的使用



Mutect2 - 有或没有正常样本配对时,肿瘤体细胞变异检测结果对比
Mutect2 - somatic variant calling with/without matched normal sample
HaplotypeCaller is designed to call germline variants, while Mutect2 is designed to call somatic variants.

案 例

a) 使用的GATK版本
    v4.1.4.1
b) 使用了准确的GATK命令
  Matching normal
gatk Mutect2 -R hg38.fa \
-I input_tumor.bam -I input_normal.bam \
-tumor tumor_sample -normal normal_sample \
-pon gatk4_mutect2_4136_pon.vcf.gz \
--germline-resource af-only-gnomad.hg38.vcf.gz \
--af-of-alleles-not-in-resource 0.0000025 \
-L exome_autoXYM.intervals \
-O mt2_matched.vcf.gz
  No matching normal
gatk Mutect2 -R hg38.fa \

-I input_tumor.bam \

-pon gatk4_mutect2_4136_pon.vcf.gz \

--germline-resource af-only-gnomad.hg38.vcf.gz \

--af-of-alleles-not-in-resource 0.0000025 \

--genotype-germline-sites \

-L exome_autoXYM.intervals \

-O mt2_unmatched.vcf.gz

  后跟 FilterMutectCalls

gatk FilterMutectCalls -R hg38.fa \

-V {input.vcf} \

-O {output.fv_vcf}

依赖项

 · 间隔/Interval文件使用bedtools(merge)创建,来自RefGene.txt.tar.gz(UCSC)
 · 使用了“Genomic Data Commons(GDC)”的参考基因组PoN

GDC参考基因组文件

https://gdc.cancer.gov/about-data/gdc-data-processing/gdc-reference-files

GDC Panel of Normal(PON)文件

此PoN文件受控,需要DBGAP访问权限才能下载,且需要使用GDC客户端下载这些内容

GDC DNA-Seq/Tumor only variant calling workflow

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/#tumor-only-variant-calling-workflow


· 其余依赖项来自GATK

问题描述

  使用基因组数据共享(Genomic Data Commons, GDC)上可用的测序数据,对Mutect2进行了匹配/不匹配正常样本的测试(Mutect2 with/without matched normal sample)。使用上面的命令,用两种不同的方法检测变异,并进行比较,看看它们重叠的程度如何。

  为了做到这一点,在运行FilterMutectCalls后,过滤并获得了具有“PASS”的变异,结果看起来像这样 (对于1个肿瘤患者):

  可以看到重叠非常低(每组约20~25%)这个结果还是很令人担忧的,因为样本均来自同一个肿瘤患者的同一次测序结果。只是:左侧有癌旁(或血液白细胞)测序对照(Matched);右侧只测序了肿瘤组织(Unmatched)。
  因为我将使用来自只有肿瘤样本的变异检测流程(Tumor-only variant calling pipeline)的数据。即只对肿瘤样本测序,没有正常样本测序,更没有肿瘤病人自身的正常组织配对样本。
  有正常样本的匹配时,官方推荐的标准流程如下:
每个肿瘤病人都有自身配对的癌旁或血液白细胞测序,以尽可能地获取与肿瘤有关的突变
过滤掉病人自身存在的良性的、遗传的、等其它与肿瘤无关的变异

  此类问题(无Normal配对的Tumour测序)可能没有明确的解决方案,因为有1个匹配的正常样本(A matched normal sample)才是被官方推荐的方法。
  问题是:当一个病人只有肿瘤样本测序可用时(未对该病人的癌旁或血细胞测序),是否有任何额外的过滤(Filtering)技术可以用来减少结果中假阳性(False positives)突变的数量?

问题的讨论

GATK团队:
  GATK支持团队专注于解决工具产生的与GATK工具相关的错误和异常结果的问题。对于所有其它问题,比如这个问题,我们正在构建一个待办事项列表,等我们有能力的时候来解决。请继续发布您的问题,因为我们将挖掘它们以改进文档、资源和工具。我们不能保证得到回复,但是,如果你知道答案,我们会请求其它社区成员帮助。了解详情,请查看我们的支持政策:https://broadinstitute.zendesk.com/hc/en-us/articles/360038469272-What-types-of-questions-will-the-GATK-frontline-team-answer-
David Benjamin:
  GDC PoN是如何生成的,其中有多少样本?
作者:
  你好大卫,抱歉一直拿我的问题打扰你。我之前和GDC的人讨论过,他们4000+血液正常样本用GATK4 (v4.0.4.0)创建PoN
  关于他们目前的管道的一些信息可以在这里找到:
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/#tumor-only-variant-calling-workflow
  GDC Panel of Normal (PON) Files used for Variant Calling (gatk4_mutect2_4136_pon.vcf.tar,文件受控制,可能需要dbGAP访问权限才能下载。也需要使用GDC客户端下载),信息来源:
https://gdc.cancer.gov/about-data/gdc-data-processing/gdc-reference-files
  另外,我只关注乳腺癌,所以我想知道是否应该只纳入PoN上的女性。
  如果有人想知道其它样本是否也是如此,我已经尝试了一些其它匹配的数据,并看到了类似的数字(10-15% overlap between tumor-only and matched normal/tumor workflow)
  我还使用HaplotypeCaller确认了非匹配肿瘤分析流程所特有的变异(Variants unique to unmatched tumor-only workflow)不是胚系变异。下面是我用于胚系变异检测(Germline calling)的命令(仅为了测试任何潜在的胚系变异,不做任何过滤)
gatk --java-options HaplotypeCaller -R hg38.fa -I normal.bam -O normal.vcf.gz
David Benjamin:
  老实说,你所能希望实现的最好的Tumor-only calling是一组候选变异(A set of candidate variants),其中大部分实际上是胚系变异(即与参考基因组不同的、生来就有的变异,与后天产生的肿瘤体细胞变异无关)。即使你极其保守,不计频率地移除gnomAD中的每1个等位基因(Removed every allele in gnomAD regardless of frequency),仍然会留下数万个独特的胚系变异。
  在Low-VAF (Variant allele frequencies)亚克隆和混入大量正常(即非肿瘤细胞)DNA的不纯样本的情况下(这个在临床上几乎无法避免:穿刺活检等方法取出来的组织会存在大量的非肿瘤细胞),你想要的变异的等位基因分数(Allele fraction)与1/2的二倍体杂合(Diploid het)的分数显著不同,FilterMutectCalls可以做得更好(但在胚系变异的检测结果中,也存在着大量偏离50%的分数)。然而,总的来说,Tumor-only callingMatched normal calling之间的重叠度小,是不可避免的。
  罕见的胚系变异,是(有或无Normal配对的)差异的一个来源。它们并不一定会导致Tumor-only calls通过Matched normal来实现过滤。更常见的情况是,罕见的胚系变异的存在,迫使FilterMutectCalls变得保守(Conservative),并过分地过滤了等位基因分数(或比例)接近1/2的真正的体细胞变异(如此高频的体细胞突变可能非常重要)。因为杂合子的胚系/遗传变异的等位基因分数的理论值也是1/2。区别只是在细胞内与细胞间即:等位基因分数接近1/2的体细胞变异,在一部分细胞中完全是野生纯合子;而胚系/遗传变异的杂合子在所有细胞均为杂合。因此,Bulk DNA-seq无法区分上述两种情况。可能只有单细胞DNA-Seq测序技术可以完成所谓的“Tumor-only calling”(不必采样癌旁或血细胞来Match),这是由体细胞突变的特点所决定的,即一部分细胞正常、一部分细胞突变,单细胞测序恰好可以观察不同细胞中的情况,而胚系突变在身体所有细胞中的情况理论上完全一致。
  (有或无Normal配对的)差异的另一个来源,此差异总是导致在Normal(或在HaplotypeCaller的输出中显示的)中不存在的Tumor-only calls,(差异的来源)是可以从Matched normal中检测到的Mapping artifacts。其基本思想是,差异的基因组具有不同的结构变异(SVs)和其它影响(基因组)比对错误(Mapping error)的变异。例如,在着丝粒参考序列间隙(Centromere reference gap)中的一个SNP可能会使“天平”偏向于基因组其它地方的一个比对错误。在某种程度上,导致这一现象的变异是常见的,一个PoN可以并且确实有助于(解决)这类问题,但若有足够多的罕见变异,这就还不够。
  我突然想到,尽管我们从未尝试过,但使用父系和母系样本作为两个匹配的正常样本(Mutect2可以通过指定-I表示肿瘤和两个正常样本,以及指定-normal表示两个正常样本来做到这一点)可能会有很大帮助。当然,如果你没有一个Matched normal,也就可能没有来自其父母的正常样本。
  这个PoN听起来不错,我觉得没有理由排除男性(研究乳腺癌时)。
vctrymao:
  你说你在Mutect2 tumor-only calling特有的变异中没有看到胚系突变我很好奇,你是怎么运行HaplotypeCaller以我的理解,用HaplotypeCaller很难捕捉到罕见/独特的胚系事件(我想应该叫单例/Singletons吧?),因为它的后续GenotypeGVCFs使用多个样本中的胚系突变来提升可信度。
  David,你说“罕见的种系变异的存在迫使FilterMutectCalls变得保守,并且过度地过滤了等位基因比例接近1/2的真实体细胞变异”。Mutect2如何首先检测到这些罕见的胚系变异,从而知道要过度过滤?
  你介意再详细解释一下映比对错误(Mapping error)吗以及PoN是如何装配和使用的。
David Benjamin:
  Mutect2检测罕见的胚系变异的方式,和检测其它变异的方式一样。关键是,它们非常罕见,甚至在gnomAD中都没有,所以没有任何先验知识(Prior knowledge)表明它们是胚系。(是的,gnomAD并没有完整地收录所有个体的、所有可能会发生的胚系变异;胚系变异完全不断地、随机地发生,3千万个外显子位点的、所有可能的SNP至少有9千万种,而对于InDel的数量更是无法估计)
  比对错误(Mapping error)是指:将基因组的一个部位的Reads,对比到了基因组的另一个位置(这可能是由于参考序列不完整、结构变异和同源性造成的)。因为它们是真正的DNA序列,你不能用从测序和样品制备中检测错误的方式,来检测它们。我们可以寻找一些特征(Signatures),但一组正常样本(A panel of normals)也很有帮助,因为(从一个人到另一个人)这些错误往往发生在相同的地方。
vctrymao:
  我明白了。我以为gnomAD只在FilterMutectCalls中用于胚系过滤器作为先验/Prior我还以为,如果在人群数据库中没有找到候选变异,就有方法来估计先验?
  你也说过,“它们并不一定会导致Tumor-only calls通过Matched normal来实现过滤”。我有点糊涂了你是说这些罕见的胚系事件不能用匹配的正常样本来过滤掉吗你是说,一般来说,Mutect2即使有匹配的正常样本,也需要有人群数据库Prior才能过滤掉胚系事件吗?
  如果你能详细说明Mutect2 +过滤器/Filters中的哪个统计模型中的哪些参数受到了影响,那将非常有帮助,因为我也在试图理解其中的方法论。
作者:
  嘿,vctrymao,除了我在评论中提到的HaplotypeCaller命令,其它都没有运行。就像你说的,一般建议(GATK最佳实践)将多个样本一起运行,作为胚系变异检测流程的一部分。然而,为了解决我当时的问题,我决定对少量样本单独运行HaplotypeCaller,不进行任何过滤,以保留所有变异。
  对于你的问题关于人群(数据库)资源的使用,对过滤胚系事件我想指的是下面的链接下部分的“A variant allele in the case sample is not called if the site is variant in controls”/“如果某个位点在对照/Controls中变异,将不会从疾病/Case样本中调用/Call该变异的等位基因”(在底部)将有帮助:https://gatk.broadinstitute.org/hc/en-us/articles/360035890491-Somatic-calling-is-NOT-simply-a-difference-between-two-callsets#:~:text=HaplotypeCaller%20is%20designed%20to%20call,designed%20to%20call%20somatic%20variants.
  如果你决定进行任何与这篇文章相关的测试,请务必更新!
David Benjamin:
  vctrymao,你是对的,来自胚系(变异数据库)资源的等位基因频率被用作Prior
  如果一个变异不在胚系(变异数据库)资源/Germline resource中,我们会指定一个比“1/(胚系资源的大小)更罕见的默认等位基因频率(Allele frequency)。也就是说,如果你的10万个二倍体样本的种系资源中没有某个等位基因,我们可以猜测频率小于“1/20
  我所说的“它们并不一定会导致Tumor-only calls通过Matched normal来实现过滤”,我的意思是,即使在Tumor-only模式下,罕见的胚系变异有时也会被过滤掉。
  Mutect2应该总是与胚系变异资源一起运行,即使是在Matched normal模式下,尽管它被设计为在没有胚系资源的情况下尽可能地运行良好。
vctrymao:
  谢谢你!我想我对一些事情还很困惑。
  1. 即使是在tumor-only模式下,如果罕见的胚系变异有时也会被过滤掉,这是好事,不是吗所以问题是,罕见的胚系变异仍然没有被过滤掉那些确实被过滤掉的胚系突变的特征是什么?
  2. 你是说大多数胚系突变会在gnomAD这样的库中被捕获,所以成为大量候选胚系突变的Prior?
  3. 你还说“罕见胚系变异的存在迫使FilterMutectCalls变得保守,并且过度过滤了等位基因比例接近1/2的真正的体细胞变异。”我到现在还不明白这是怎么回事。稀有胚系变异的哪一方面迫使FilterMutectCalls变得保守在我看来,罕见的胚系变异和常见的系变异之间唯一的区别是人群频率Prior。但既然体细胞突变也没有人群Prior,你是说正因为如此,Mutect2把所有VAF1/2的都称为胚系吗
  4. matched-normal calls而非tumor-only calls中存在哪些Calls在什么情况下,matched-normal能够帮助识别出tumor-only caller看不到的体细胞变异?
  5. HaplotypeCaller能发现罕见的胚系变异吗我想知道你是否可以抵消我在“3)”中的观点,通过允许VAF接近1/2的体细胞变异通过过滤器,然后通过HaplotypeCaller过滤掉所有剩余的(和罕见的)胚系变异。
作者:
  嘿,vctrymao,关于#4,David Benjamin在之前的评论之一中涵盖了潜在的情形:
https://gatk.broadinstitute.org/hc/en-us/community/posts/360057810051/comments/360009638892
David Benjamin:
  1. 即使是在tumor-only模式下,如果罕见的胚系变异有时也会被过滤掉,这是好事,不是吗所以问题是,罕见的胚系变异仍然没有被过滤掉
  是的是的。
  那些确实被过滤掉的胚系突变的特征是什么?
  这完全取决于等位基因分数与①体细胞聚类模型确定的谱/Spectrum的匹配程度,与(Versus)②局部拷贝数给出的胚系等位基因频率的匹配程度(如果使用CalculateCondition的-tumor-segmentation输入;否则,假设每个地方的拷贝数都是2)。
  2. 你是说大多数胚系突变会在gnomAD这样的库中被捕获,所以成为大量候选胚系突变的Prior?
  是的,但问题是,这种罕见的胚系变异占了胚系变异的很大一部分。相反,罕见的胚系变异比体细胞变异更常见
  3. 你还说“罕见胚系变异的存在迫使FilterMutectCalls变得保守,并且过度过滤了等位基因比例接近1/2的真正的体细胞变异。”我到现在还不明白这是怎么回事。稀有胚系变异的哪一方面迫使FilterMutectCalls变得保守
  在我看来,罕见的胚系变异和常见的系变异之间唯一的区别是人群频率Prior。但既然体细胞突变也没有人群Prior,你是说正因为如此,Mutect2把所有VAF1/2的都称为胚系吗
  参见#1的答案。
4. matched-normal calls而非tumor-only calls中存在哪些Calls在什么情况下,matched-normal能够帮助识别出tumor-only caller看不到的体细胞变异?
  1个匹配的正常样本(Matched normal)可以提供非常好的证据,证明1个变异肯定不是1个胚系变体(A matched normal can give very good evidence that a variant is definitely not a germline variant.)
5. HaplotypeCaller能发现罕见的胚系变异吗
  绝对可以的。
  我想知道你是否可以抵消我在“3)”中的观点,通过允许VAF接近1/2的体细胞变异通过过滤器,然后通过HaplotypeCaller过滤掉所有剩余的(和罕见的)胚系变异。
  你可以这样做,但我看不出这样做会有什么效果。HaplotypeCaller无法区分具有大的等位基因分数(Large allele fractions)的体细胞变异与胚系变异。
ming hu
  你好我在哪里可以下载到这个GATK中的文件, gatk4_mutect2_4136_pon.vcf.gz,能给我一个链接吗谢谢

资料来源

https://gatk.broadinstitute.org/hc/en-us/community/posts/360057810051-Mutect2-somatic-variant-calling-with-without-matched-normal-sample
(GATK/社区/体细胞)
https://gatk.broadinstitute.org/hc/en-us/community/topics/360001488872-Somatic

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集



浏览 44
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报