||
计算基因组系统学
分子系统学发源至今,已经大大推动了人类探索生命进化历史的研究。分子系统学研究的必要前提是分子性状矩阵。在这个矩阵中,行,可以代表种群、物种及以上各级阶元;列,则代表不同分子序列中的同源位点。初步研究表明,行数增加比列数对计算有更加显著的影响。另外一方面,已经无数的实例证明,列数即信息量的增加可以提高系统发育树的可靠性。如今,传统上仅仅依据1~2个或数个基因片断构建进化关系的研究方法已经逐渐被摒弃。分子系统学的发展已经逐渐转向多基因甚至基因组数据的分析。
基于大规模数据矩阵的系统发育分析也对传统的分析流程及软件提出了挑战。目前,由于最大似然法(ML)和贝叶斯分析方法(BI)能够利用反映基因进化历史的数学模型来推断进化关系,因此较其它方法(如最大简约法)得到更加普遍的应用。对于最大似然法而言,传统的分析软件如PAUP由于计算耗时过多,已经在大规模分析时遇到瓶颈。不过近年来出现的如RAxML和GARLI已经部分克服了以上瓶颈。不仅如此,RAxML还可以在计算过程中采用复杂模型对不同基因间的异质性进行校正,保证了其算法的科学性。对于贝叶斯法,已有的分析软件如MrBayes和BayesPhylogenies能够兼顾大数据分析时基因间异质性的特点。但是,在分析大量数据时,其耗时较多且对计算机性能要求很高。我们已有的研究积累表明:贝叶斯分析所依据的MCMC算法还存在较大的并行空间。这将促使我们进一步对MrBayes等推断软件实施并行化,为依据大量基因数据进行系统发育关系研究做好准备。
分子系统学建立在对直系同源基因进行分析的基础上。近年来,新一代的DNA测序技术不断涌现,显著提高了测序的广度和效率。这些技术的产出已经成为目前利用大规模基因或基因组数据进行系统发育研究的重要数据来源。不过,由于对多个物种测得的众多序列片断进行重新组装是一项昂贵、费时的巨大工程,因此新一代测序技术在分子系统学领域的应用目前仍然存在局限性。由于转录组数据在总体数量上小于基因组数据,转录组数据中包含较少的重复序列单元,表达量高的基因由于具有重要的生物学功能而倾向于比较保守,所以通过转录组测序有望可以在不同物种中测得更多的直系同源基因。在主要类群上展开系列的转录组测序,为进化研究和比较基因组学分析等提供较为经济、合适的数据资源。
基于组学数据、多基因等构建系统发育关系(Genome-Based Phylogenetics),不仅有望获得较为稳定的系统发育关系,而且有望促进利用大型数据构建系统发育关系的研究。目前,物种基因组测序还不够充分。在应用现有软硬件条件开展远源阶元基因组系统学分析的同时,我们迫切需要开展属下物种水平的基因组测序、高效算法研发、已有算法优化、并行软件部署等研究工作。同时,伴随大量分子数据,特别是基因组数据的积累,分子系统学的发展已经面临包括大数据分析、高效算法研发、已有算法优化、已有软件并行化等在内的众多挑战和机遇。
因此,基因组时代之前的分子系统学研究为计算基因组系统学(Computational Phylogenomics)奠定了基础,但仍然迫切需求加强经典系统学、基因组学、分子系统学、计算生物学、统计生物学、计算生物信息学、高性能计算等学科的深度交叉,才能在基因组时代获得更加长足的发展。在算法优化过程中,交叉工作如果有数学工作者的深度参与,学科将预期有飞跃发展。
图注:Douglas博士最近整合多基因数据获得的膜翅目系统发育树
致谢:罗阿蓉博士、Douglas Chesters博士等均在研究组内参与或组织讨论,推动了分子分类学(单基因物种界定;多基因物种界定;公共数据库物种界定;基因组物种界定)、分子系统学(进化模型选择;小蜂、蜜蜂系统发育研究);郎显宇博士、周莼葆博士促进了软件优化(IM的MPI、GPU版本)等方面的系列合作研究工作;史卫峰教授自2005年合作以来,基于较小的病毒基因组数据,逐渐建立了进化分析平台(16篇合作论文);张爱兵教授一直在分子系统学领域推动双方研究人员和学生的交流(11篇合作论文)。
QQ群:
243962686。现有我和首都师范大学张爱兵教授管理。欢迎大家加入!
相关网址:
1. Computational Phylogenetics: http://en.wikipedia.org/wiki/Computational_phylogenetics
2. Building the Tree of Life (CIPRES): https://www.phylo.org/
3. Phylogenomics: http://en.wikipedia.org/wiki/Phylogenomics
4. Phylogenomics Lab: http://darwin.uvigo.es/
5. Berkeley Phylogenomics Lab: http://phylogenomics.berkeley.edu/
6. Genomic Observatories: http://genomicobservatories.blogspot.com/
7. GSC14部分报告:http://qun.qzone.qq.com/group#!/243962686/share
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-10 07:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社