||
2020年4月底,宏基因组公众号编辑部内部启动了《微生物组数据分析和可视化实战》专项计划(又名《宏基因组学百科全书》),该项目是对2017年以来宏基因组公众号发布的上千篇原创文章进行系统的总结和更新,希望在接下来一年以时间里,初步形成一套对本领域新人入门的教材,同时是专业同行查找相关资源的技术手册。
该项目以2017年刘永鑫博士发布的《扩增子图表解读、分析流程和统计绘图》三部曲系列教程为骨干,进行系统的更新和扩展。
2017版扩增子分析学习三部曲(共27篇文章):
上面的教程虽然收获了上万的读者,帮助了大量同行解决了入门难的问题。但是本领域是目前世界科研的热点,发展极快。经过了不到三年的时间,但以现在的经验回看之前的教程,是非常有必要进行更新和扩展的,以便让同行把握本领域最新的动态、技术和发展方向。
同时团队深知自己的研究方向和知识面有限,开展了同行招募计划,详见下文:
欢迎广大同行贡献你的专业知识和力量,推动本领域的发展。
图1. 项目创作者名单。项目征集发现24小时,获得海内外33位同行的广泛参与。大家的加入,对现在知识体系极大的补充,将进一步帮助更泛的读者。
宏基因组创作者和审稿人登记表,目前还可以报名 https://kdocs.cn/l/c7CGfv9Xc
我们计划在一年内形成中文百科全书的第一版:
参考样章:第二章第一节. Alpha多样性箱线图
Github链接:https://github.com/YongxinLiu/MicrobiomeStatPlot - 01AlphaBoxplot目录 - 211. Alpha多样性箱线图.md (md为文档),图片在此目录提供ai/pdf/png格式。
有道云链接:http://note.youdao.com/groupshare/?token=6F42B94366684265B9C30834782A5B8E&gid=68636499
*注:复制以上链接,在浏览器中查看。
本次更新和扩展微生物组数据分析和可视化系列教程(宏基因组百科全书),我们具有以下优势:
基于以上基础,我们计划团队更广泛的力量,结合近3年发展的新方法、以及我们更新的知识体系,完成一套《微生物组数据分析和可视化的零基础教程》,解读广大国内同行入门难的痛点,帮助研究生快速成长,帮助导师节约时间。让每位同行,一本书在手,实现数据分析的理解、开展、统计可视化、论文写作和投稿的全程指导。
通过分析流程章节,你可以独立实现大数据的降维分析
图2. 扩增子和宏基因组分析的技术路线和常用软件——从原始数据到特征表(Liu, et al. 2020)
通过简单阅读本书,你能看懂,并可亲手绘制如下常用统计和可视化结果:
图3. 微生物组数据核心特征表及常用可视化方案(Liu, et al. 2020)
本书的分析部分全程配合github更新,以确保随时相关软件的发展代码仍然可用。同时也会录取相关的视频教程,实现零基础自学的目标。
当然内容不只以上这里,这两部分只是最数据分析和可视化章节的部分内容,将作为样章陵陆续发布,更多期待大家的创作,共同的参与。
*注:由于创作者水平和时间有限,全部内容为大家无私创作并分享,欢迎同行提宝贵意见,但不喜勿喷!
总结过去这三年,扩增子技术的发展已经从狂热到归于理性,分析技术和相关流程层出不穷。本领域出现了罕见的主流软件mothur、QIIME和USEARCH三足鼎立的局面,均轻松引用过万拉开了全民研究微生物组的新时代。2017年是QIIME 2公测的开始,进一步助力QIIME成为本领域首个引用过2万的传奇软件,并成就作者Rob Knight教授以20万引用成为微生物组领域高引第一人。USEARCH虽然64位版是商业软件,但VSEARCH继续填补这一空白,推动了易用性和跨平台分析的广泛使用。其次是大量R包的出现,使用包治百病的效率进一步扩大,如DADA2包的了现,使用R语言也可以实现扩增子数据全流程的分析。
目前微生物组数据的可视化工具仍然处于发展的初级阶段,绝大多数的分析工作需要作者编写代码大量代码,这对于生物学家是极其困难的。斯坦福大学的Susan Holmes教授于2012年发布的是目前最主要的分析可视化包,该软件包于2013年正式发表于PloS one,方便数据筛选,同时提供了常用alpha、beta多样性、物种组成可视化,帮助了近4千篇文章的发表。Phyloseq的核心是将原始数据分析结果转化为S4类存储对象(提供了封闭特征表、样本和特征元数据及进化树4类文件的封装格式),结合dplyr进行数据框转换处理,stringr进行字符串处理,ggplot进行可视化处理即可高效完成基本统计出图。其次2016年以后逐渐开发一些R包,大大增强了扩增子下游分析。例如: microbiome包专门为扩增子数据分析准备,丰富了微生物群落分析的内容;ggtree增强了进化树可视化方案,可以使用简单的ggplot语法绘制美观的进化树;ggraph,tidygraph增强网络可视化性能,可以使用ggplot语法轻易完成网络图可视化。这些R包出现,让新一代的基于R语言的扩增子分析变得简单和高效。随这扩增子测序的逐渐繁荣,其次在19年提出了基于R语言平台的新的算法FEAST:用于预测微生物组来源,并发表在Nature Methods上,让微生物溯源分析更加高效快捷;随着人工智能的繁荣,让机器学习在微生物领域大放光彩,这些分析的实现离不开机器学习相关R包:randomforest,e1071,caret,pROC等;随着picrust功能预测的开发,更适合环境微生物生态的功能预测R包Tax4Fun2可以使用扩增子数据更加准确的预测环境微生物群落功能的变化。这些包共同造就了R语言在扩增子数据后续分析得 完整生态,并在迅速完善发展。宏基因组团队近年来积累的代码汇编成的EasyAmplicon流程和amplicon包,提供了几十种扩增子常用分析和可视化方案,可更快速有效获得出版级结果,同时也为更高要求的读者提供代码框架,方便进一步修改。在未来,后续的数据分析变化也越来越多样,主要是以多个R包在内的新包出现和应用,更应用的窗口软件、网络服务器分析云平台也将快速发展,同时开源代码和保持可重复是重要的要求。
近些年我参与组织了数十场微生物组分析研讨会,学员主要来自中国大陆各高校和研究所,也有来自茅台、五粮液、安琪酵母、华为等大厂的科研人员,甚至有海外华人不远万里从美国、欧洲、澳州、新西兰、新加坡等地飞来北京参加微生物组专题学习研讨会。这也说明不只国内,国外也同样缺少该领域的入门教程。希望在不远的未来,发行此书的英文版,供海外同行学习。
刘永鑫,博士。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士学位,2016年中科院遗传发育所博士后出站留所任工程师。目前主要研究方向有微生物组数据分析、方法开发和科学传播。目前以第一作者(含共同)或微生物组数据分析负责人在Science、Nature Biotechnology、Cell Host & Microbe 等杂志发表论文20余篇,引用千余次。作为中国唯一单位代表参与微生物组分析平台QIIME 2开发。受邀以第一作者和/或通讯作者(含共同)在Protein & Cell、Current Opinion in Microbiology、遗传 等杂志发表微生物组研究方法综述。2017年7月创办“宏基因组”公众号,目前分享本领域相关原创文章1800余篇,代表作品有《微生物组图表解读、分析流程和统计绘图》、《QIIME2中文教程》等系列,关注人数9万+,累计阅读1400万+。
文涛,博士在读,2016年就读于南京农业大学。荣拜资环院沈其荣教授课题组,研究方向为根际微生物生态,具体为植物介导下根际小分子代谢组同土壤微生物群落在防控土传病害方面的相互作用,关注宏基因组和代谢组。“微生信生物”公众号创始人,2019.1加入“宏基因组”公众号任编辑,2019.12起任副主编,发表《Microbiome:根系分泌物驱动土壤记忆抵御植物病原菌、《DADA2中文教程v1.8》和《R语言绘制带聚类树的堆叠柱形图》等文章20余篇。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社