李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

ASTRAL-MP:通过随机化和并行化将 ASTRAL 扩展到非常大的数据集

已有 7015 次阅读 2019-3-31 23:15 |系统分类:论文交流

01

2019 年 3 月 23 日,Bioinformatics 杂志上在线发表了由加州大学圣地亚哥分校 Siavash Mirarab 实验室完成的 ASTRAL-MP 软件。这个软件的主要功能是通过大量基因树推断物种树(进化基因组学)。相比于之前版本的 ASTRAL 软件,ASTRAL-MP 可以通过并行运算的方式处理更大的数据集。


02

基因组不同区域地进化历史可以是不同的。基因树之间不一致的情况促使研究者们开发归纳性的方法,也就是根据一组输入的基因树推断物种树。ASTRAL 是一种常用方法,并且已经可以处理相对大的数据集。但随着基因组数据的规模不断膨胀,ASTRAL 单线程运行的特点使得 ASTRAL 的运行速度依然不能让人满意。ASTRAL 使用了动态编程,不能很好地并行运算。这篇论文作者介绍的 ASTRAL-MP 是 ASTRAL 的首个应用并行运算的版本,并且还使用了随机化技术来加速其中的几个步骤。重要的是,ASTRAL-MP 不仅可以利用多个 CPU 核心,还可以利用一个或多个 GPU。ASTRAL-MP 利用多个 CPU 核心后运行速度得到了极大地提升,其通过 OpenCL 部署的 GPU 版本相比于 ASTRAL-III 在速度上可以提高 158 倍。利用 GPU 和多核 CPU,ASTRAL-MP 可以在两天内完成一万个物种,超过十万个基因的分析。


03

ASTRAL-MP 的源代码地址为:https://github.com/smirarab/ASTRAL/tree/MP-similarity。ASTRAL-MP 是通过 Java 编写的,支持包括 Windows, Linux 和 MacOS 等多平台运行。


准备输入文件:

  1. 输入的基因树应该是 Newick 格式的

  2. 输入的基因树可以存在缺失的类群

  3. 类群的名字中不能出现引号,也就是说不能在类群名字中使用奇怪的符号(比如问号 ?)

  4. 如果一个物种存在多个个体,可以让 ASTRAL 将它们在物种树中放一起。为实现这一点需要通过 -a 参数给 ASTRAL 传递一个文件来说明哪些个体属于同一个物种,文件格式可以是下面两种之一,每一行代表一个物种。


ASTRAL-MP 的用法如下,通过 -i 制定输入文件,通过 -o 指定输出文件即可。


参考文献:

  1. Yin, John, Chao Zhang, and Siavash Mirarab. “ASTRAL-MP : Scaling ASTRAL to Very Large Datasets Using Randomization and Parallelization.” Bioinformatics in press (2019). http://doi.org/10.1093/bioinformatics/btz211




https://wap.sciencenet.cn/blog-656335-1170767.html

上一篇:GenomeWarp: 不同 assembly 之间高效转换 gVCF 文件的坐标
下一篇:Plant Cell | 花分生组织中抑制 WUSCHEL 基因表达的分子机制
收藏 IP: 58.32.219.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 03:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部