shuiyue的个人博客分享 http://blog.sciencenet.cn/u/shuiyue

博文

序列本尊VS (KO?) OTU聚类

已有 9397 次阅读 2017-12-3 00:50 |系统分类:论文交流| 生态学, 高通量测序, OTU聚类:序列分析

导读:

高通量数据聚类成OTU(s)与不聚类(直接分析数据)两种方式孰优孰劣一直存在争议。本文在近期阅读的基础上,总结了针对该问题的若干新进展(主要在微生物生态学领域),并延伸讨论这些进展对生态学其他领域(如入侵生态学等)研究可能的影响。


Thompson等人于201711月在Nature发表了关于地球微生物组计划的荟萃分析文章。这项浩大的工程文章调用了97个研究、27751份样品,测序得到22亿条序列,平均每个样品8万条序列。后续分析时,研究人员首先使用了传统的OTUs聚类,结果发现1/3左右的序列无法匹配已有的rRNA数据库,即这些数据将被删除或者被定义为未知序列。据此,他们最后选择了无需参考序列(不聚类OTU)的分析方法,Deblur。使用Deblur直接删除错误/误差序列,从而获得单核苷酸精度的亚OTUssOTUs)。这种序列分析方法使得同时处理大规模样品成为可能。文章认为,不使用97%相似度聚类、直接使用序列分析得到的结果分辨率更高。该文章的中文翻译参见微生态笔记


Deblur即是上述同组研究人员推出的不聚类OTUs进行高通量数据分析的方法(Amir 2017)。算法简介如下,详细算法参见(Amir 2017):

1)对sequence进行reads个数统计,按照丰度由大到小进行排序;

2)按照丰度高低反复对sequence进行计算,被判定为误差数据的reads将会被从所有相邻reads中减去;

3)当某个sequencereads频次降到0时,该sequence即被删除。

Amir等人还比较了DeblurDADA2UNOISE2等降噪算法的效果异同。结果表明,与其他算法类似,Deblur可以提供稳定的sOTUs以获得单核苷酸分辨率的结果。Deblur的运算速率比UNOISE2低一个数量级,但是比DADA2高一个数量级。此外,Deblur的分析过程可以基于单个样品来做(不用把数据混在一起),因此可以支持大批量、不同研究的数据进行比较和分析。


DADADivisive Amplicon Denoising Algorithm)是Callahan等人于2012年提出的一种降噪处理方法,DADA22015年推出的更新版。DADA是一种分裂式分割算法。首先将每个reads全部看作单独的单元。Sequence相同的reads被纳入一个sequencereads个数即成为该sequence的丰度(abundance),并计算每个sequence丰度的p-value。当最小的p-value低于设定的阈值时,将产生一个新的partition。每一个sequence将会被归入最可能生成该sequencepartition。依次类推,完成分割归并。研究人员使用DADA2对阴道样品进行分析,发现了OTU聚类方法未能检测到的Lactobacillus crispatus菌株。研究人员还使用三组数据集比较了DADA2UPARSE聚类的效果差异(如下图)。结果表明DADA2可以检测到UPARSE所检测的及其不能检测的序列,说明DADA2提高了分析的分辨率和准确度。


UPARSEEdgar推出的比较严格的聚类OTU的方法,但是Edgar本人近期也认为97%的聚类方式有些武断,认为应该将相似性阈值提高到99%或者100%。加之对DADA2的文章做出回应,Edgar推出了UNOISE2的降噪处理方法(目前UNOISE3也已经推出),并声明UNOISE2的结果堪比甚至优于DADA2UNOISE2的原理比较简单,如下图所示,每个原点代表一个sequence,原点大小为相应丰度,绿色为正确的生物学序列,红色为含有若干错误的序列。左图内假设X为正确的生物学序列,周边序列按照与X的序列差异程度排序。与X足够临近、丰度又足够低的序列,很可能就是测序的错误,将被删除。Edgar还建议在对数据进行降噪处理时,应该pooling数据,而不是对单个样品分别分析。因为单个样品内丰度很低的序列在混样后并不见得很低,例如100个样品里各1条序列,混合后序列数可以提高2个数量级。


其他处理方式就不一一赘述了。虽然各有优劣,毫无疑问的是,理论上这些处理方式可以得到相似的多样性分布规律(pattern)等。而OTU聚类与序列直用主要的区别在于(Callahan et al. 2017):

1)规避97%的相似度等阈值,可以提高检测的分辨率,尤其是那些遗传距离非常近(>97%)的物种,往往会因为被归入某个OTU而被雪藏;

2OTU聚类有点类似一次性操作,不同研究之间的可比性比较不好,尤其是做荟萃分析时,可能需要把数据从头开始做,而直接用序列分析,就容易很多;

3)使用序列本身作为tag可能比OTU要稳定的一个原因是,序列本身具有一定的生物学意义,可以作为稳定的生物学标记,甚至不需要参考数据库,而OTU总归不能等同于species

当然序列本身的使用也不是万能的,比如,使用marker gene分析时,不同的研究对象和研究环境,可能仍需要筛选相宜的marker及引物,不同数据之间的可比性依然是存在问题的。

在微生物生态学以外,随着高通量测序技术在生态学其他领域应用的不断拓展,类似的问题也已经并将继续影响其他领域内的结果发现与解释。Brown2016)在使用metabarcoding对加拿大沿海港口进行入侵生物(浮游动物类)早期检测的文章里,比较了直接使用序列比对(individual reads)和聚成OTU后再进行序列比对两种方式。结果发现,序列直接比对检测到379种浮游动物,其中24种被认定为非本地种(NIS);而OTU聚类后的结果发现,6NIS物种未被检测到,另有1种属于鉴定错误。进一步的遗传分析显示,由于部分物种遗传距离非常近,因此容易被聚类成共享OTUs,而导致物种丢失。因此,直接使用序列进行比对可能会得到更可靠、更精确的结果。


使用高通量测序进行生物多样性分析时,另一个重要的挑战是现有的参考数据库(reference library)可能并不完善,尤其是形态学鉴定较为困难的生物类群。因此,规避物种划分(只关注pattern)成为替代选择。例如,2017年发表在Molecular Ecology Resources上的一篇文章,尝试了taxonomy-free的方法(Apotheloz-Perret-Gentil)计算硅藻指数(用以监测水体健康)。研究人员分别使用物种划分前后的eDNA数据计算硅藻指数,结果发现taxonomy-free的方法得到了准确性可观的评价。更重要的是,不进行物种划分的方法利用了95%OTUs;而进行物种划分则只有35%OTU可用,即其他的OTUs无法得到准确的比对结果,只能被舍弃。对于这种类型的分析,似乎不进行taxonomy assignment也是可行的。然而,在其他领域,如评估动植物多样性时,尤其是珍稀动植物或者入侵生物时,可能还是需要合适的方法获得物种水平的数据(如进一步完善参考数据库)。此外,在使用metabarcoding做食性分析或者动植物多样性监测时,遗传距离相近的动物/植物可能也会由于OTU聚类而被忽略。因此,如果条件允许,可以直接用序列进行比对,检测结果的可靠性。



综上所述,OTU聚类与否争议的根源其实在于,如何区分真实的生物数据与测序的错误。直接根据测序序列进行分析一定程度上确实会优于OTU聚类,结果的精确度和分辨率都会得到提高。测序技术和数据分析方法都在与时俱进,我们应该关注新的进展,但是也要尽量仔细比较和判断,谨慎选择适合自己研究的方法和模式。


参考文献

Amir A, et al. 2017. Deblur rapidlyresolves single-nucleotide community sequence patterns. mSystems 2:e00191-16.

Apotheloz-Perret-Gentil L, et al.2017. Taxonomy-free molecular diatom index for high-throughput eDNAbiomonitoring. Molecular Ecology Resources 17:1231-1242.

Brown EA, et al. 2016. Early detectionof aquatic invaders using metabarcoding reveals a high number of non-indigenousspecies in Canadian ports. Diversity and Distributions 1-15.

Callahan BJ, et al. 2017. Exactsequence variants should replace operational taxonomic units in marker-genedata analysis. The ISME Journal 1-5.

Callahan BJ, et al. Aug. 2015. DADA2:high resolution sample inference from amplicon data. bioRxiv preprint.

Edgar RC. Oct. 2016. UNOISE2: improvederror-correction for Illumina 16S and ITS amplicon sequencing. bioRxivpreprint.

Edgar RC. Oct. 2017. Accuracy ofmicrobial community diversity estimated by closed- and open-reference OTUs.PeerJ.

Edgar RC. Sep. 2017. Updating the 97%identity threshold for 16S ribosomal RNA OTUs. bioRxiv preprint.

Thompson LR, et al. 2017. A communalcatalogue reveals Earth’s multiscale microbial diversity. Nature.


声明:以上为笔者个人阅读总结,希冀抛砖引玉之效。虽已尽力还原文献真实,个人感情色彩仍在所难免。为削弱误导效应,强烈建议对相关内容感兴趣的师长朋友们阅读原文,获取更详细、更准确的知识。文中难免有疏漏错误之处,恳请大家不吝赐教。谢谢。




https://wap.sciencenet.cn/blog-313491-1087962.html

上一篇:生态学文献分享--公众号
下一篇:今日推荐『PNAS: 快速适应性进化促进种群在新环境里的迅速扩张』
收藏 IP: 210.72.153.*| 热度|

1 梅卫平

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 04:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部