DECoN是一款CNV检测工具,适用于exon-based的panel测序,可以识别single exon CNV, 文章链接如下
http://europepmc.org/backend/ptpmcrender.fcgi?accid=PMC5409526&blobtype=pdf
panel测序在临床上应用广泛,目前利用panel测序数据来检测SNP是比较成熟的,而CNV的检测则缺乏有效的工具。在这样的背景下,DECoN应运而生,开发者在ExomeDepth软件的的基础上进一步修改,主要有以下两点大的改动
新增了检测染色体上第一个外显子区域的变异
在隐马可夫模型中新增了exon之间的距离这一因素
通过模拟数据和真实数据对软件的性能进行评估,在模拟数据集中,DECoN效果惊人,100%的灵敏度和99%的特异性。真实数据采用了illumina TruSight Cancer Panel测序的结果,最终鉴定出来24个exon CNV,用MLPA技术进行验证,有23个可以检测到,假阳性率4%,更加详细的评估结果请查看文章中的描述。
该软件的运行速度也非常快,还提供了良好的结果可视化,示意如下
上面的折线图展示的是基因上coverage的分布,灰色代表对照样本,蓝色代表实验样本;中间展示的是基因的名称,最下方的散点图代表观测值和期望值之间的比值,灰色区域代表95%置信区间,当比值显著偏离置信区间时,认为该区域存在拷贝数变异。上图所示的红点区域代表实际观测值小于期望值,说明发生了deletion。
软件的源代码保存在github上,链接如下
https://github.com/RahmanTeam/DECoN
具体操作分为以下4步, 对应4个R脚本
1. ReadInBams.R读取bam文件,计算coverage, 用法如下
Rscript ReadInBams.R --bams bamList.txt --bed Target_Regions.bed --fasta hg19.fa --out DECoNtest
输入文件为bam文件的列表,目的区域的bed文件,参考基因组的fasta文件,bam文件的格式如下
目的区域bed文件的格式如下
输出结果是一个后缀为RData
的文件,保存了样本的coverage信息,该软件中用FPKM值来表示。
进行质量控制,检测coverage过度的exon区域,相关性较差的样本等,用法如下
Rscript IdentifyFailures.R --Rdata DECoNtest.RData --exons customNumbering.txt --mincorr .98 --mincov 100 --custom TRUE --out DECoNtest
输入文件为第一步产生的RData文件,另外还需要自定义的exon编号的文件
customNumbering.txt
内容示意如下
如果所有的样本和exon区域都符合要求,则该命令不会输出结果,如果有不合格的样本和区域,则需要剔除之后在进行操作。
3. makeCNVcalls.R进行CNV calling,用法如下
Rscript makeCNVcalls.R --Rdata DECoNtest.RData --exons customNumbering.txt --custom TRUE --out DECoNtestCalls --plot All –-plotFolder DECoNTestPlots
4. runShiny.R通过R包Shiny构建了一个基于浏览器的交互式结果展示页面,用法如下
Rscript runShiny.R --Rdata DECoNtestCalls.RData
可以查看coverage分布图,cnv calling的结果等信息,示意如下
对于panel测序的CNV检测,推荐使用DECoN进行分析。
·end·