woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

制作RDP数据库的USEARCH版本用于扩增子物种注释

已有 4614 次阅读 2021-9-20 21:20 |个人分类:经验|系统分类:科研笔记

制作RDP数据库的USEARCH版本用于扩增子物种注释

RDP是在扩增子分析中物种注释的常用的数据库之一,USEARCH、VSEARCH是常用的扩增子分析工具。RDP数据库训练集 trainset 18(https://sourceforge.net/projects/rdp-classifier/)仅提供了QIIME使用的数据库格式,

image

而USEARCH作者Robert Edger提供的RDP数据库(http://www.drive5.com/sintax)仅为几年前的transet 16 (rdp_16s_v16_sp.fa.gz)。

image

我联系让作者更新一下,居然回复是商业软件申请RDP数据库的授权使用比较麻烦,你们自己制作一下也非常简单。好吧,只能自己动手,丰衣足食了。

数据下载

https://sourceforge.net/projects/rdp-classifier/ 下载QIIME格式的序列和物种注释 RDPClassifier_16S_trainsetNo18_QiimeFormat.zip

目前最新的为RDP 18,2020年更新

但数据库保存于Google服务器上,需要浏览器有VPN才能下载,如我使用了付费版的 谷歌上网助手Ghelper开全局模式方可下载。

我下载的版本保存了国内备份链接,“宏基因组”公众号后台回复“rdp”获得文件下载链接。

数据的解压和基本统计

# 解压
unzip RDPClassifier_16S_trainsetNo18_QiimeFormat.zip
cd RDPClassifier_16S_trainsetNo18_QiimeFormat
# 统计序列,21195 seqs, 30M
head -n2 RefOTUs.fa
seqkit stat RefOTUs.fa
# 统计物种注释,3界,67门,120纲,210目,545科,3240属和8682种
head Ref_taxonomy.txt
for i in `seq 1 7`; do
  cut -f2 Ref_taxonomy.txt| sed 's/; /\t/g' | cut -f $i |sort|uniq -c|sort -k1,1nr |wc -l
done

RDP训练集18版,包括3界,67门,120纲,210目,545科,3240属和8682种。

观察QIIME(输入)和USEARCH(输出)格式

输入文件:整合前序列和物种注释

# 序列
>AJ000684
gaacgctggcggcgtgcttaacacatgcaagtcgaacggaaaggtctcttcggagatactcgagt

# 物种注释
AJ000684        k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Mycobacteriales; f__Mycobacteriaceae; g__Mycobacterium; s__heidelbergense

输出文件:整合后样式——注释+序列(参考USEARCH的RDP16: rdp_16s_v16_sp.fa)

>X71857_S000021696;tax=d:Bacteria,p:Firmicutes,c:Clostridia,o:Clostridiales,f:Clostridiaceae_1,g:Clostridium_sensu_stricto,s:Clostridium_puniceum;
TGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAGCGATGAAGTTCCTTCGGGAATGGATTA

制作USEARCH物种注释数据库单文件格式

本质上只需要两行命令即可实现格式的输入。首先用sed调整物种注释格式与目标一致,其次使用awk追加至序列文件的ID后面。结果一定要用head检查,确保符合预期。代码如下:

# 修改注释为uearch格式
sed 's/^/>/;s/k__/tax=d:/;s/__/;/;s/; /,/g;s/$/;/' Ref_taxonomy.txt > Ref_taxonomy_usearch.txt
# 预览
head -n3 Ref_taxonomy_usearch.txt

# 添加注释至序列ID
awk 'NR==FNR{a[$1]=$2}NR>FNR{print $0"\t"a[$1]}' Ref_taxonomy_usearch.txt RefOTUs.fa|sed 's/\t$//;s/\t/;/'|less -S > rdp_16s_v18_sp.fa
# 预览结果,应与上面示例的输出文件完全一致,序列字母大小写对结果无影响
head -n4 rdp_16s_v18_sp.fa|cat -A

image

最终结果下载链接:https://github.com/YongxinLiu/EasyMicrobiome/blob/main/usearch/rdp_16s_v18_sp.fa.gz ,点击页面中的Download下载。

如果以上github链接下载有问题,可使用国内备份链接,“宏基因组”公众号后台回复“rdp”获得文件下载链接。



https://wap.sciencenet.cn/blog-3334560-1305002.html

上一篇:Microbiome:中科院微生物所蔡磊组揭示病害影响植物微生物组群落构建与功能适应
下一篇:ISME:土壤微生物对硫的短期及长期利用的决定因素-基于13C,15N,14C和35S多同位素标记结果
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 19:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部