李雷廷
novoCaller: 利用贝斯网络方法从家系和群体测序数据中鉴定新发生的变异
2019-6-7 12:53
阅读:2857

许多之前开发的变异鉴定方法主要用于鉴定高质量的变异位点,设计上试图降低假阳性,但也会提高假阴性,对于 trio-sequencing 数据不敏感。为解决这个问题,Brigham 妇女医学院和哈佛医学院等单位的学者设计了一个利用贝斯网络方法从家系和群体测序数据中鉴定变异的软件 novoCaller。论文于 2018 年 8 月 30 日发表于 Bioinformatics 杂志(https://doi.org/10.1093/bioinformatics/bty749)。


Trio-sequencing 是指“三人组测序”,即对“爸爸、妈妈、孩子”的三人组进行测序,可用于寻找造成罕见孟德尔遗传病的致病基因。novoCaller 利用群体频率、家系数据和严格的统计方法来提高鉴定新发生变异的精确性,并减少假阴性。novoCaller 利用父母亲的样品作为参考,主要关注新发生的变异(de novo variants)。软件测试结果发现,对于 GoNL(荷兰人基因组)数据集,可以正确鉴定到 605 个已验证的新发生变异中的 98%,且仅产生 20% 的假阳性,相比而言,GATK PBT 会产生 46% 的假阳性。而对于拥有 2023 个变异位点的自闭症数据集,novoCaller 可以正确鉴定到其中 96% 的变异。另外,对于 48 组临床 “三人组” 数据,也表现优异,大大缩小后续实验验证的范围。


novoCaller 是利用 C++ 和 Python 编写的,源代码地址为:https://github.com/bgm-cwg/novoCaller


novoCaller 软件的输入数据可以是 VCF 文件或 BAM 文件。对于 VCF 文件,用法如下:

对于 BAM 文件,用法如下:


转载本文请联系原作者获取授权,同时请注明本文来自李雷廷科学网博客。

链接地址:https://wap.sciencenet.cn/blog-656335-1183597.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?