博文

宏基因组分析方法初探

已有 3301 次阅读 2020-4-2 15:47 |系统分类:科研笔记

探究微生物组，解构身边熟悉的陌生环境

随着测序通量越来越高，价格成本越来越低，痕量微生物也难逃深度测序的挖掘。在高通量测序技术的辅助下，宏基因组学研究飞速发展，十多年来，在环境微生物鉴定、共生菌研究、营养学研究、肠道微生物对人体生理影响等方面取得了诸多进展。

一个标准的分析流程通常包括以下五个部分：1、样本的收集、处理及测序；2、对测序数据的预处理；3、对微生物组进行分类学、功能组及其它基因组学分析；4、统计学及生物学功能分析；5、验证。

样本收集

宏基因组样本面临着环境复杂、个体多样等问题，比如，每个人的年龄、饮食习惯、居住环境、药物摄取（特别是抗生素）等的不同，导致其肠道内菌群结构可能有较大不同，当我们研究特定因素对人体生理的影响时，如果样本量较小，就可能带来统计学分析的不便，甚至会对实际产生影响的生物学因素产生误判。所以我们通常建议选取环境因素类似的个体，并进行追踪研究，以减轻非微生物组带来的差异。同时，业内还提出了最小信息标准（MIMARKS、MIxS等），用于标准化收集样本的相关信息。

另一方面，样本的收集、保管方法，DNA的提取等也可能带来偏性，比如，不同类型的菌株可能适用于不同的裂解方式，导致提取到的DNA主要来自于容易裂解的菌株。同时，实验过程潜在的污染也是亟需重视的部分，不同的试剂、耗材，操作不当等都可能引入样本之外的微生物，面对这种情况，我们通常可以选取空白样本作为对照组，另一种策略是在样本中加入绝对定量的对照组（spike-in），以此来评估实验与分析方法的稳健性。

文库制备和测序

文库制备基本已是标准化流程，有很多成熟的试剂盒，值得一提的是，近年来出现了基于转座酶的tagmentation方法，其所需的DNA量更少，操作更为简便，已经广泛应用于各种高通量测序样本的文库制备，不过，由于转座酶有特殊的插入序列偏好性，其对于宏基因组带来的测序偏好还未被评估。同时，考虑到PCR带来的偏性，目前也有很多PCR-free的方法来制备文库，应根据实际情况进行选择。

测序平台的选择往往要依据实验目的而定，如果希望挖掘样本中低丰度的微生物信息，我们可能需要一个高通量、大数据的测序结果，Illumina推出的NextSeq、NovaSeq平台通量可达TB级别，不在乎测序经费的话不妨考虑一下；如果目的仅为分析样本中微生物的组分、谱系等，就可考虑经典的MiSeq、HiSeq平台；如果以序列拼接、组装为目的，则可考虑进一步使用第三代长读长的测序平台。

分析方法

拿到了序列信息后，我们需要得到的是样本中微生物的种类、丰度，后续进行关联分析、功能学分析等。所以，分辨出种类是重中之重。目前常见的分析思路有两种，一种是基于序列拼接，重组微生物基因组，另一种则直接将序列比对至已有的微生物基因组数据库。两种思路各有优劣：

技术特点	基于组装	基于比对
全面性	可构建多物种基因组，但只有达到足够覆盖度的物种才能被较好地组装。低丰度菌株信息容易被丢掉，因而reads利用率低	可提供多物种功能、结构信息，但局限于数据库提供的已知信息，且在mapping时可能产生误判
群落复杂性	对于复杂群落，只有部分物种可以被很好地组装	只要数据库内容足够、测序量足够，可以有效地分析大多数复杂群落
探索性	可以组装出新物种的基因组，提供更多数据支持	无法解决未知序列的来源问题
计算开销	需求较大	需求较小
人工辅助	基因组组装需要经验与技巧，还需要其它实验验证或辅助填gap	选择合适数据库即可

基于组装

对于单基因组重测序，序列的覆盖度往往是均一分布，我们也可据此进行序列矫正和重复序列的识别。而对于宏基因组，则很难保证覆盖度，测序量不够的情况下，不同菌株可能存在不同的测序丰度，这时往往需要降低参数k-mer，使得相应的组装算法难以高效完成。另外地，亲缘关系较近的菌株之间，由于序列相似性的问题，可能导致contig之间更加难以组装。

目前的宏基因组组装软件，一方面动态选择参数k-mer，一方面还要考虑内存优化问题，即使如此，计算得到的往往还是大量contig而非数个完整的基因组。

面对这种情况，研究者提出了binning的方法，根据物种内在的生物学联系进行分组归类，尽可能多地将contig拼接起来。常用于binning的生物学特征包括：核酸组成，如k-mer的碱基使用频率、GC含量等；丰度信息，如同一菌株的基因拷贝数比例是一定的，所以在不同样本中也应一致；甲基化模式，如特异的甲基化motif以区分不同菌株。

展望

微生物群落具有复杂的结构及多样性，其彼此间的相互作用关系、生化循环通路等无时不刻不影响着周边环境。宏观的生态学、营养学等手段已无法观察和定性，利用高通量测序技术解析宏基因组将成为研究的必备手段，相应的数据分析方法还需我们不断实践和改进。

原文链接https://wenlongshen.github.io/2020/02/25/MetaGenomics/

转载本文请联系原作者获取授权，同时请注明本文来自沈文龙科学网博客。
链接地址：https://wap.sciencenet.cn/blog-543513-1226535.html

上一篇：搭建基于Docker的Tensorflow+Cuda环境
下一篇：宏基因组常用分析流程简介

收藏 IP: 124.64.19.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

沈文龙

扫一扫，分享此博文

shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

宏基因组分析方法初探

样本收集

文库制备和测序

分析方法

基于组装

展望

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

沈文龙

全部作者的其他最新博文

全部精选博文导读

相关博文

shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

宏基因组分析方法初探

样本收集

文库制备和测序

分析方法

基于组装

展望

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

沈文龙

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)