woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

CSBJ综述:微生物组数据挖掘方法的挑战与机遇

已有 1225 次阅读 2020-9-1 16:29 |个人分类:作者解读|系统分类:科研笔记

fig0

交叉研究微生物组数据挖掘的方法开发:挑战与机遇

Method development for cross-study microbiome data mining: Challenges and opportunities

Computational and Structural Biotechnology Journal [IF:6.018]

DOI: https://doi.org/10.1016/j.csbj.2020.07.020

发表日期:2020-08-10

第一作者:苏晓泉(Xiaoquan Su)a,b,*

通讯作者:苏晓泉(Xiaoquan Su)a,b,*

合作作者:Gongchao Jing b, Yufeng Zhang a,b, Shunyao Wuaa

主要单位:

a青岛大学计算机科学与技术学院,中国科学院青岛生物能源与过程研究所单细胞中心

摘要

在过去的十年中,已经产生了大量的微生物组测序数据用来研究微生物的组成与环境之间的动态关联。如何准确、高效地解读大规模微生物组数据,并进一步发挥其优势,已成为当前微生物组研究的一个重要瓶颈。这篇综述重点介绍了整合分析多个研究的微生物组数据集的三个关键步骤,包括微生物组成分分析、数据整合和数据挖掘。通过介绍现有的生物信息学方法并讨论其局限性,本文展望了这三个步骤计算方法的发展机遇,并从多组学数据分析层面提出了可能的解决方案,以便从不同角度全面理解和快速研究微生物组,从而通过提供“微生物组数据空间”的更广阔视野来促进数据驱动的研究。

关键词

微生物组(Microbiome),鸟枪宏基因组(Shotgun metagenome),扩增子测序(Amplicon sequencing),数据挖掘(Data mining),微生物组搜索(Microbiome search), 多组学数据(Multi-omics data)

前言

近年来,为研究微生物组与自然环境 [2, 3],人体健康[4-7],农业[8, 9]等的动态联系,已对大量微生物群落样本进行了测序。如何有效、全面地发现隐藏在大规模数据下的生物学故事已成为目前微生物组研究最本质的瓶颈之一[10, 11]。从序列比对和机器学习等通用算法,到微生物组的特定分析方法如OTU(Operational Taxonomy Unit,可操作分类单元)聚类[12]和基于系统发育的菌群距离[13, 14]等,生物信息学工具的发展进步为解密微生物组数据带来了机遇。而从另一个角度来讲,大量的微生物组数据也带来了新的挑战,特别是在整合多个研究和平台产生的数据集[15],样本之间的比较[16]以及通过训练大规模数据集进行状态或疾病的分类和预测[17, 18]这些问题上。

对多个交叉研究数据集进行荟萃分析(meta-analysis,也称元分析、整合分析、综合分析、汇总分析),能够产生稳定且可重复的结果是进一步研究和应用的基础[19-21]。其中,三个分析步骤(图1)在处理微生物组大数据中起着至关重要的作用:成分分析,从序列中解码微生物组物种成分和功能组成(图1a);数据整合,整理、规范和统一现有数据集(图1b);数据挖掘,通过从整合数据中学习到的微生物组特征,对给定样本的状态进行识别和分类(图1c)。通过分别回顾用于微生物组成分分析、数据整合和数据挖掘的计算方法和工具(表1和表2),本文总结了这三个方面的挑战和机遇,并且通过多组学数据分析,对从不同角度全面理解和快速研究微生物群落,提出更具前瞻性的解决方案。

图1. 微生物组大数据荟萃分析的关键步骤

fig0

(a)成分分析,从序列中解码微生物组物种成分和功能组成。(b)数据整合,整理、规范和统一现有数据集。(c)数据挖掘,通过从整合数据中学习到的微生物组特征,对给定样本的状态进行识别和分类。

表1. 微生物组数据分析的挑战与机遇

fig0

表2. 当前用于微生物组数据分析的工具

fig0

微生物组组成分析

DNA测序是目前用于解析微生物群落组成特征的主要方法。目前广泛使用的有两种测序策略:扩增子测序(Amplicon Sequencing),用标记基因(如16S rRNA, 18S rRNA, ITS等)来实现物种的分类和鉴别;以及鸟枪法宏基因组全基因测序(whole-genome sequencing; WGS),可以获取样本中所有生物全部的遗传信息序列。

对于扩增子测序序列的物种组成分析,基于序列相似性的OTU聚类算法已广泛用于对微生物群落物种组成的分析,如UPARSE[12]和Usearch[23]等算法。而诸如DADA2[24]、Deblur[25]和UNOISE3[26]等扩增子序列变异(Amplicon sequence variants; ASVs)工具,进一步提高了扩增子序列在单核苷酸水平上的分析精度,比常规OTU的有更高的可靠性、可重复性和全面性。对于微生物组的功能解析,PICRUSt[28, 29]、Tax4Fun[30]等类似的软件可以利用扩增子标记基因和其已知的参考全基因组之间的联系,推测整个群落的功能组成。上述方法大多已被整合到集成的分析流程中,如QIIME[31, 32]、Mothur[33]或者Parallel-META3[34],并增加了对微生物群落α和β多样性的统计分析。作为一个经济高效的方法,扩增子测序分析已经用于大规模微生物组的研究,但由于PCR扩增偏好性、标记物短序列的分辨率不足以及全基因组信息的缺失,所以准确性也受到限制。例如,对16S rRNA基因某些可变区进行测序所获得的短序列,其生物分类注释往往只能到“属”水平[36, 37],而且对于缺乏参考全基因组信息的环境微生物物种,其功能推测也不尽人意。

由于全基因测序(WGS)的信息量更大,因此可以利用WGS短序列来进行“种”甚至“株”水平的物种分类注释[38, 39](如Karken [40]、mOTUs [41]、MetaPhlAn2 [42])和功能解析(如HUMANn2 [43])。同时,基于分箱(binning)或拼装(assembling)的工具(如metaSPAdes[44]、meta-IDBA[45]和MetaWRAP[46])能够进行物种基因组重建,从而实现新基因预测和单核苷酸多态性(Single Nucleotide Polymorphism; SNP)分析。然而由于WGS的成本较为高昂,包括测序、数据存储和共享、序列质量控制[47, 48]、分类和功能分析[38, 43] 等生物信息学处理,总成本比扩增子[28, 34, 49, 50]要高出3-10倍,目前也难以大规模地进行使用。近日,一种新的浅鸟枪测序(shallow shotgun sequencing)策略,通过较少的测序序列,获得近似于常规WGS测序的“种”水平的微生物组结构和功能组成解析,从而能够以更经济的方式来获得宏基因组测序序列[51]。

不同于常规扩增子测序仅针对16S rRNA基因的某些可变区,PacBio或Oxford Nanopore测序平台可以对16S rRNA基因进行全长测序,可以将微生物群落的结构解析分辨率提高到“种”甚至于“株”的水平 [52]。与此同时,随着越来越多的全长16S rRNA基因序列和其完整参考基因组的发布[53],将扩增子测序所获得的标记基因比对到统一的参考数据库上,可以在更加广泛范围内进行高分辨率的微生物组分析。为了结合长序列测序平台数据的优势,新的序列降噪、聚类、注释算法及策略也同样应该更新以适应新数据的特点。综上所述,微生物组分析方法的快速发展为人们更广泛地了解“微生物数据世界”提供了基础。

数据仓储和数据整合

目前,在微生物组相关的项目和研究中产生了数量巨大的数据集,这些样本大多被存储于在线的数据仓储中,如NCBI-SRA[57]、MG-RAST[58]、EBI Metagenomics[59]、JGI-IMG/M[60]以及MPD[61]等。这些庞大的数据为全球微生物多样性和分布研究提供了素材,但也给数据整合和再利用等方面带来了新的问题。在这些数据仓储中,大多样本是按其来源的研究或项目进行组织管理,并存储其原始或质控过的DNA序列,而且其元数据(meta data)中采样信息的命名和记录也并不完整和统一,从而很难寻找或获取来自特定条件下的或具有某些结构功能特征的微生物组样本。

为了重新利用这些宝贵的微生物组大数据以进行进一步的分析和比较,许多工作重新整理了具有统一格式的元数据[62, 63],并利用标准操作流程(Stand Operating Procedures; SOP)对微生物组样本的测序数据进行重新分析处理。GMrepo[65]是一个组织良好且经过精心整理的人类肠道宏基因组的数据库,具有统一注释的元数据。GcMeta[66]拥有一个数据管理系统,该系统与数据分析工具和工作流集成在一起,能够以标准化的方式存储和发布数据。Qiita[67, 68]允许用户跨研究进行meta-analysis,并利用类似SQL的检索,查找包含特定特征(例如元数据、物种分类信息和序列片段等)的微生物组样本。

然而,当产生了新的微生物组样本的测序数据时,仍然很难回答在目前的数据仓储或数据库中,是否已经存在与该样本在群落结构整体上很相似的样本,进而根据这些已有样本的采样信息,对新样本的环境条件或健康状况等特点进行预测。为了解决这个问题,科研人员研发了微生物组搜索引擎(Microbiome Search Engine; MSE)[69],用于快速的“群落对群落”的比较和匹配。通过动态索引策略和一系列微生物组整体水平的相似性计算方法[70, 71],MSE实现了在海量数据中对具有特定结构的目标微生物组的实时级搜索访问。

对交叉研究的微生物组数据集进行整合的另一个障碍是不同来源、不同批次的扩增子测序数据之间的技术差异。技术因素,如DNA提取方法、标记基因PCR引物的选取、标记基因扩增的区域、测序平台和测序类型等,会显著影响数据集之间的比较[72]。对于具有较大效应量的生物问题(例如对来自于多个栖息地的环境微生物组,或者来自于不同身体部位以及不同年龄、地域和具有不同饮食习惯宿主的人类的微生物组进行比较),技术差异可以将测序序列与参考16S rRNA基因进行比对来抵消[73, 74](例如,将短序列段映射到全长16S rRNA来实现referenced-based OTU picking),使交叉研究整合变得有意义。然而,对更细微影响的生物问题进行研究,仍然要求按照统一的标准和实验方案来产生所有的扩增子数据集。相比之下,鸟枪法WGS数据在研究微生物组的疾病关联和时间序列动态变化方面对技术差异的敏感度要低[19, 75],对于交叉研究数据的集成和比较也是一种值得考虑的替代选择。

数据挖掘以进行状态识别和分类

正是因为微生物群落与生态系统紧密相连,微生物组具有很强的潜力能够将菌群成分的变化与其表型和生理状态联系起来,从而促进疾病诊断、生态失衡的检测、治疗效果评估等领域中新技术的发展。先前的研究已经证明了机器学习方法如XGBoost,随机森林(Random Forest; RF),支持向量机(Support Vector Machine; SVM),K-最近邻(K-nearest Neighbor; KNN)等利用人体微生物组数据实现疾病检测和分类的可行性,并应用于炎症性肠病(Inflammatory Bowel Disease)[77]、结直肠癌(Colorectal Cancer)[19]和龋齿(Caries)[78]等。作为一种定量方法,基于机器学习计算出的微生物组相关指数还能够用于评估潜在疾病的风险,并评估不同治疗方法之间的效果[79, 80]。

通常来讲,基于微生物组的检测必须对给定样本的特定状态(如疾病)作出预先假设,并寻找出在疾病样本和对照样本之间分布不同的结构或功能特征(如物种或基因)作为生物标记,然后用这些标记物训练和构建机器学习模型以进行疾病识别。由于在这种模型中检测范围仅限于给定的状态类型,因此很难广泛地确定样本是否健康。此外,由于人群中微生物组数据的异质性,将疾病的特定模型扩展到其他人群,在可行程度上非常具有挑战[81]。此外,相同的生物标记可以与多种不同的疾病有关,这也可能导致多种疾病分类中的错误[82]。

近日,一种基于搜索的疾病检测和分类策略,将待检测样本在大规模的健康菌群库中进行搜索,实现其健康状态的检测。如果待检测样本与大量的健康菌群结构都不相似,便可能是由于其异常的健康状态造成的。接下来,该方法也通过在多种疾病样本中进行搜索比对,并根据菌群整体程度上的最佳匹配来对异常样本具体的疾病类型进行识别[83]。这种微生物组整体水平的搜索和匹配策略,在多人群、多测序平台以及数据存在污染的情况下也能鉴定微生物组状态。不足的是,目前该方法仅适用于扩增子序列,并且要求扩增子序列与16S rRNA参考数据库进行比对来获得OTU。

卷积神经网络(Convolutional Neural Network ; CNN)、深度神经网络(Deep Neural Network; DNN)等深度学习方法的应用已从计算机视觉拓展到了微生物学领域[17]。通过支持并行计算的多核CPU和众核GPU的硬件提升,深度学习在大数据整合和对异构数据的鲁棒性方面表现出优势,但模型构建中的特定参数仍需要针对解决不同的问题而进行优化。TensorFlow(https://www.tensorflow.org/ )和PyTorch(https://pytorch.org/ )包可通过Python轻松实现人工智能(AI)技术,从而推动了深度学习在微生物分析中分类识别[85]、生物标志物选择[86]、多疾病检测与分类[87]等方面的应用。深度学习在微生物组研究中的另一个潜力是多标签分类,该功能已广泛应用于图像处理[88]。目前对微生物组的疾病研究主要集中在单标签分类上,即单个样本只有一种特定的状态。然而在现实中单个微生物组样本,其来源的宿主可能同时患有多种不同的疾病[56, 89],这种情况可以通过在微生物组领域进一步推广AI技术来解决。

多组学数据分析的前景

对“微生物群落中存在什么生物”和“微生物群落有什么功能”的研究不再足以充分理解微生物组与环境之间的相互作用。尽管对DNA测序序列的分析能够获取微生物群落中的功能基因,但反映生物合成特征的细胞功能活性和基因表达以及代谢产物尚不清楚。微生物组的多组学数据分析利用化学和生物学方法提供了“微生物群落正在做什么”的全面视图,它从宏转录组学[91]、宏蛋白质组学[92]、宏代谢组学[93]和病毒组学[94]进一步研究微生物群落。以前的一些工作已经证明了多组学数据在理解人类微生物组方面具有深入而独特的见解[95, 96]。然而,其产生的数据类型和计算工具大多是特定于组学的,例如用于宏基因组测序的软件与宏转录组学的RNA-seq数据以及代谢组学的质谱数据之间并不兼容,这使得多种工具的组合具有针对特定情况、不可扩展和不可复制的特点。IMP(Integrated Meta-omic Pipeline)工作流程可以来执行自动化、标准化和灵活性的分析,以整合宏基因组学和宏转录组学等多组学数据[97]。这种开放式开发框架策略增强了不同类型数据分析的集成以及从多个方面对结果的解释,并促进了微生物组多组学研究模式的发展。

然而,基于序列的分析目前在临床或产业应用中仍然未普及,主要原因之一是因为测序仪生成数据通常需要至少2天的时间[98]。目前,荧光激活细胞分选(Fluorescence-Activated Cell Sorting; FACS)方法,基于细胞中靶蛋白、代谢物或核酸的标记,能够实现细胞的快速功能性分选[99]。同时,基于拉曼激光的细胞分选(Raman-Activated Cell Sorting; RACS)方法,基于细胞成像,无需对细胞进行标签处理,不依赖于特定生物标记,就能实现微生物群落中单细胞精度的物种分类或状态鉴定[100, 101]。更重要的是,由于FACS或RACS只需花费几秒钟即可对每个细胞进行分析,因此该类技术可被视为以高通量和低时间成本监测微生物组的单细胞分辨率方法。

表1文字版. 微生物组数据分析的挑战与机遇

方法主要挑战和局限性机会和前景
微生物成分分析基于扩增子测序的组成分析:生物分类注释往往只能到“属”水平,功能分析的适用范围有限;基于全基因组测序的组成分析:高昂的测序成本,组成分析在数据和计算上都很复杂16S rRNA基因全长序列: 将微生物群落结构解析分辨率提高到“种”甚至于“株”的水平,增加扩增子标记基因和参考全基因组之间的联系,将标记基因比对到统一的参考数据库和明确的系统发育树上,在更广泛范围内进行微生物组分析;浅鸟枪测序(shallow WGS):以近似扩增子测序的成本,获得“种”水平的微生物组结构和功能组成解析
数据整合通用数据仓储:大多数数据仓储中只存储原始DNA序列,缺少统一的元数据和注释,很难寻找来自特定条件下的或具有某些结构功能特征的微生物组样本精心整理的数据库:标准化测序质量控制,统一的微生物结构分析和元数据注释,查找包含特定特征的微生物组样本;微生物组搜索引擎(Microbiome Search Engine):在整个微生物水平上进行“群落对群落”的比较和匹配,实时级搜索访问
状态分类和预测机器学习:很难广泛地确定微生物组样本是否健康,在多标签分类问题上表现欠佳,很难将疾病的特定模型扩展到其他人群基于搜索的策略:不需要状态假设和生物标记,对微生物组数据的异质性和被污染数据的鲁棒性;深度学习:为大数据训练模型提供更好的硬件和系统环境的支持,多标签分类问题的优化,开发完善的程序扩展包

参考文献

Xiaoquan Su, Gongchao Jing, Yufeng Zhang & Shunyao Wu. (2020). Method development for cross-study microbiome data mining: Challenges and opportunities. Computational and Structural Biotechnology Journal 18, 2075-2080, doi: https://doi.org/https://doi.org/10.1016/j.csbj.2020.07.020

略,详见原文。

作者简介

image

苏晓泉,男,1986年10月生,博士,教授,硕士研究生导师,青岛大学特聘教授,民盟盟员,国家留学基金公派访问学者。研究方向为生物信息学与大数据科学,已在该领域内mBio、mSystems、Bioinformatics、BMC Genomics等期刊发表学术论文20余篇,先后主持国家自然科学基金面上/青年项目、山东省自然基金重大基础项目、中科院重点部署项目子课题等,相关成果获得7项软件著作权。主持开发的“微生物组搜索引擎”(mse.ac.cn),入选“2016年中国生物医药技术十大进展”,并被新华社、科技日报、AsianScientist等国内外媒体报道评价为“A Google For Microbiome Research”。

青岛大学师资队伍页:http://cst.qdu.edu.cn/info/1071/7519.htm



https://wap.sciencenet.cn/blog-3334560-1248848.html

上一篇:123R简介和统计绘图
下一篇:NBT:Rob Knight团队发表微生物组数据降维新方法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-4 10:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部