woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

EZBioCloud:16S和宏基因组物种注释和新种鉴定

已有 9597 次阅读 2021-7-28 20:56 |个人分类:软件|系统分类:科研笔记

简介

https://www.ezbiocloud.net/ 是综合的细菌16S鉴定数据库,所有16S序列经人工校正,几乎全部为完整27F-1492R全长16S序列,而且全面覆盖NCBI、JGI的16S和细菌基因组,以及PacBio测序的16S全长序列。数据库每季度更新,近10年来被引用过万次。

由ChunLab维护的专门针对细菌、古菌16S rRNA基因的数据库,但与Greengenes数据库不同的是,该数据库以可培养的细菌、古菌16S rRNA基因序列为主,也包括了细菌基因组和宏基因组来源的16S序列。

我们可以通过EzBioCloud数据库的鉴定(Identify)功能确定某一微生物的近缘可培养/模式种。当然,如果我们想要查找某一个属的所有可培养种的16S序列,EzBioCloud也是很好的选择之一。

数据库有4类

16S数据库

EzBioCloud 16S 数据库: 16S rRNA 基因为整个 EzBioCloud 数据库提供了分类框架。基本上,所有物种或亚种都由单个 16S 序列表示,通常来自类型菌株。分层分类基于 16S-最大似然系统发育分析 ,详见: https://help.ezbiocloud.net/ezbiocloud-16s-database/

基因组数据库

EzBioCloud 基因组数据库: EzBioCloud 中包含的所有基因组序列均由相同的注释流程处理,因此可以直接进行比较,不会出现不兼容的问题。基因组通过各种质量控制 流程进行验证,分类身份通过我们的 TrueBacTM ID 服务进行检查。该数据库中的所有基因组都标有 EzBioCloud 16S 数据库中始终存在的分类名称,详见: https://help.ezbiocloud.net/ezbiocloud-genome-database/

微生物组数据库

EzBioCloud微生物组数据库:MTP(Microbiome Taxonomic Profile)是含有宏基因组样品的分类学描述文件数据的一个单元。我们将公开可用的 16S 微生物组数据编译到该数据库中。要访问该数据库,您需要使用EzBioCloud系统。如果您有兴趣探索包含 8,048 个 MTP 的人类微生物组项目数据,请遵循本教程,详见:https://help.ezbiocloud.net/tutorial-how-to-browse-individual-human-microbiome-project-hmp-data/

QIIME和Mothur使用的16S数据库

https://www.ezbiocloud.net/resources/16s_download

下载数据库首先要注释,最好使用学校或研究所的邮箱注册,如我的单位邮箱为 yxliu@genetics.ac.cn 。然后申请,等人工审核后才会发你下载链接。

16S数据库

本次只介绍16S数据库的在线和本地化使用。其他数据库的使用有时间再分专题介绍。

https://help.ezbiocloud.net/ezbiocloud-16s-database/

EzBioCloud 16S数据库内容

EzBioCloud 16S 数据库包含以下信息:

  • 代表参考分类群的标准化 16S rRNA 基因序列
    • 所有序列都使用两个最流行的 PCR 引物 ( 27F-1492R )之间提取,因此可以始终如一地进行相似性计算。
    • 原则上,单个 16S 分配给单个参考分类单元。
  • 参考类群均值
    • 当前有效发布的分类名称
    • 一些无效名称(可能代表不同的物种)。
    • 候选分类群
    • 不属于上述的未命名系统发育型。这些包括 16S 扩增子和基因组序列。
  • 给出了所有 16S 序列(从物种到门)的完整分类等级。层次结构基于 16S 的最大似然系统发育树,并考虑了当前接受的分类。

16S数据来源

由于我们已尝试确保 16S 序列的最佳质量,因此 16S 的来源可能会有所不同,并且是以下之一:

  • 有效发表的NCBI 16S扩增类群的序列:例如,AY692362为 Adiaceo aphidicola
  • 系统发育型(phylotypes)的 NCBI 16S 扩增子序列:例如,   AJ290038用于 AJ290038_s(系统发育型对应物种)
  • 从 NCBI 基因组组装中提取的 16S 序列:例如, 用于Baumannia cicadellinicola的 CP000238。
  • 从基因组JGI提取16S序列装配(这基因组数据可能无法在NCBI提供):例如 jgi.1096475在属种系型jgi.1096475_s  Geodermatophilus
  • 16S 序列由 Pacific Biosciences 微生物组样本的全长测序汇编而成。这些代表使用 PacBio 的循环共有测序 (ccs) 技术的高质量 16S 序列:例如,系统发育型PAC001304_s 的 PAC001304。
  • 来自基因组的 16S 序列(例如 CP014326_s)。这些是由全基因组序列支持的暂定新物种,详见 https://help.ezbiocloud.net/genomospecies/

因此,并非所有数据都在 NCBI 数据库中可用。但是,所有数据都可以通过 www.ezbiocloud.net 免费访问。

为什么在 EzBioCloud 中使用来自基因组组装的 16S 序列,而不是 PCR

  • 基因组组装通常比 PCR 扩增子测序质量更好。典型的 NGS 测序导致 50X 或更高的测序覆盖深度。
  • 当我们将基因组序列衍生的 16S 包含到 EzBioCloud 数据库时,我们总是使用二级结构信息通过手动比对来检查质量。根据我们的经验,使用基因组序列可以提高 16S 数据库的质量以供参考。

单个序列物种注释

1.访问主页 https://www.ezbiocloud.net/

image

2.16S序列分析

点击“16S-based ID”

image

3.新序列鉴定

点击“Identify new sequences”

image

填写序列名,序列,再点“Next”,再点“Submit”

image

4.鉴定结果解读

显示鉴定结果如下,包括菌种,株,相似度,分类全称和输入序列完整度,点击“放大镜图标” 查看详细

image

同一性为 98.7% 作为物种级临界值,94.5% 和 86.5% 的临界值分别用于属和科(Zou, 2018)。更系统的知识,参见 网站帮助  https://help.ezbiocloud.net/truebac-id/#bacterial-identification-101 或作者的综述文章 https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijsem.0.002516

点击菌名,可查看详细名称,数据来源类型

image

再点击 i 图标查看相关文献

返回上一页结果,点击编号(Accession)查看序列详细,

image

包括编号、序列、名称、菌株、方法、完整度、分类学。以及比对到Greengenes的相关近缘信息。

16S数据库的下载

详见:上面“QIIME和Mothur使用的16S数据库”段落。
申请下载QIIME格式的16S序列和物种注释压缩包,18M左右,更新时间为2018年6月1日。可用于QIIME 和 QIIME 2。也有Mothur的对齐格式数据库 89M,解压后有1.5G。这个数据库的物种注释种类较丰度,来源广泛,也可转换为常用的USEARCH/VSEARCH格式,代码如下:

格式化QIIME为USEARCH

cd db/EzBioCloud/
unzip EzBioCloud_16S_database_for_QIIME.zip
# 修改为usearch格式
sed 's/^/>/;s/\t/\ttax=d:/;s/;/,p:/;s/;/,c:/;s/;/,o:/;s/;/,f:/;s/;/,g:/;s/;/,s:/;' ezbiocloud_id_taxonomy.txt | less -S > ezbiocloud_id_taxonomy_usearch.txt
# 添加至序列文件中
awk 'BEGIN{FS=OFS="\t"} NR==FNR{a[$1]=$2} NR>FNR{print $1,a[$1]}' ezbiocloud_id_taxonomy_usearch.txt ezbiocloud_qiime_full.fasta | sed 's/\t$//;s/\t/;/' | less > ezbiocloud_usearch_full.fasta

参考资料

EzBioCloud官网帮助  https://help.ezbiocloud.net/user-guide/

Yuanqiang Zou, Wenbin Xue, Guangwen Luo, Ziqing Deng, Panpan Qin, Ruijin Guo, Haipeng Sun, Yan Xia, Suisha Liang, Ying Dai, Daiwei Wan, Rongrong Jiang, Lili Su, Qiang Feng, Zhuye Jie, Tongkun Guo, Zhongkui Xia, Chuan Liu, Jinghong Yu, Yuxiang Lin, Shanmei Tang, Guicheng Huo, Xun Xu, Yong Hou, Xin Liu, Jian Wang, Huanming Yang, Karsten Kristiansen, Junhua Li, Huijue Jia, Liang Xiao. (2019). 1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses. Nature Biotechnology 37 179-185 doi: 10.1038/s41587-018-0008-8

从EzBioCloud自动下载16S序列 https://mp.weixin.qq.com/s/rECfcjPmB8bJkramJB-DRQ



https://wap.sciencenet.cn/blog-3334560-1297405.html

上一篇:mSystems:苏晓泉、徐健-基于大数据引擎的全球微生物组转化网络
下一篇:你想要的宏基因组-微生物组知识全在这(2021.8)
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 07:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部