李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

GenomeWarp: 不同 assembly 之间高效转换 gVCF 文件的坐标

已有 4545 次阅读 2019-3-28 12:07 |系统分类:科研笔记

01

2019 年 3 月 27 日,Bioinforamtics 杂志上在线发表了由 Verily 生命科学公司、Google 公司和卡耐基·梅隆大学的学者完成的 GenomeWarp 工具,是一个基于 alignment 的变异数据坐标转换工具。GenomeWarp 相比于其它同类软件的优势在于可以精确转换 gVCF 格式的文件。


02

大家在使用 GATK 时可能会注意到,GATK HaplotypeCaller 是可以输出 Genome VCF (gVCF) 格式的变异数据文件的。GATK 也集成了很多处理 gVCF 格式的文件的工具。gVCF 格式与 VCF 格式的关键区别在于 gVCF 包含所有位点的记录,也就是既包括存在变异的位点,也包括不存在变异的位点。这样做的目的是为了方便后续的群体分析(方便合并不同批次获得的变异数据)。gVCF 格式还包含每一个位点与参考基因组序列相同的可信度。两者的差异也如下图所示,可以看出 gVCF 多出很多 non-var block records。

(https://gatkforums.broadinstitute.org/gatk/discussion/4017/what-is-a-gvcf-and-how-is-it-different-from-a-regular-vcf


03

在基因组学研究的过程中,参考基因组会不断改进,以纠正错误或填补 gap。对于通过旧版本的参考基因组获得变异数据文件,往往需要转换坐标以反映新的基因组组装。目前已经存在很多坐标转换的工具,比如 UCSC LiftOver 和 CrossMap。这些工具支持多种格式的转换,包括 BAM、BED、BigWig、GFF、GTF、SAM、Wiggle 和 VCF。但都不支持精确地转换 gVCF 格式。


这篇论文报道的 GenomeWarp 软件可以在不同的基因组版本之间高效地转换变异数据。GenomeWarp 以一种保守的方式转换数据,以减少假阳性和阴性变异。作者用一组人类基因组的数据做了测试,将参考基因组 GRCh37 转换为 GRCh38,结果发现超过 99.9% 地区域可以成功转换。同时 GenomeWarp 对计算资源的消耗并不大,速度也比较快。下图为 GenomeWarp 在不同 assemblies 之间转换坐标的算法示例。


04

GenomeWarp 的源代码地址为:https://github.com/verilylifesciences/genomewarp。软件由 Java 编写,可以跨平台运行。


GenomeWarp 的运行需要以下五个文件:

  1. 一个 BED 文件定义 query assembly 的可信区域;

  2. 一个 VCF 文件包含 query assembly 中的变异数据(可信区域外的变异数据会被忽略掉);

  3. 一个 FASTA 格式的 query assembly 的序列;

  4. 一个 FASTA 格式的 target assembly 的序列;

  5. 一个 Chain 格式的从 query assembly 到 target assembly 的坐标转换情况。


GenomeWarp 运行的命令如下:


参考文献:

  1. McLean CY, Hwang Y, Poplin R, DePristo MA. GenomeWarp: an alignment-based variant coordinate transformation. Bioinforamtics, 2019, btz218. https://doi.org/10.1093/bioinformatics/btz218




https://wap.sciencenet.cn/blog-656335-1170131.html

上一篇:FLAS: 快速、高通量的 PacBio long read 自矫正算法
下一篇:ASTRAL-MP:通过随机化和并行化将 ASTRAL 扩展到非常大的数据集
收藏 IP: 58.32.222.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 03:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部