woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

DBSCAN-SWA:一行命令找到溶源噬菌体

已有 3228 次阅读 2020-8-20 23:38 |个人分类:软件|系统分类:科研笔记

image

DBSCAN-SWA:一行命令识别并注释溶源噬菌体

DBSCAN-SWA: an integrated tool for rapid prophage detection and annotation

doi: https://doi.org/10.1101/2020.07.12.199018

image

介绍

DBSCAN-SWA是一个结合了具有噪音的密度聚类算法(density-based spatial clustering of applications with noise, DBSCAN-SWA)和滑动窗口算法(sliding window algorithm, SWA)的工具,可以在细菌基因组中识别溶源噬菌体。

DBSCAN-SWA接受multi-FASTA和GBK两种格式的输入。DBSCAN-SWA会对未经注释的multi-FASTA文件进行注释。

之后,DBSCAN算法可以检测噬菌体蛋白质簇,其具有形成溶源噬菌体簇所需的最小数量的类噬菌体(phage-like)基因(设置为6个蛋白质作为默认参数值)和同一簇内两个相邻基因之间的最大空间距离度(设置为3000 bps作为默认参数值),这反映了溶源噬菌体区域内的蛋白质密度。这两个参数是通过使用基于184个人工选择的溶源噬菌体区域的梯度方法,从6到10个蛋白质尝试最小溶源噬菌体大小和从3000到10000 bp尝试蛋白质密度得来的。考虑到来自不同细菌物种的溶源噬菌体的生物学特征可能因情况而异,DBSCAN-SWA支持用户灵活修改DBSCAN的这两个关键参数。

SWA算法被用来扫描基因库文件中与噬菌体相关的特定关键蛋白质,如“蛋白酶(protease)”、“整合酶(integrase)”、“转座酶(transposase)”、“终止酶(terminase)”、“裂解酶(lysis)”、“细菌素(bacteriocin)”和其他关键噬菌体结构基因。在60个蛋白质的移动窗口中至少有6个关键蛋白质的区域被认为是假定的溶源噬菌体区域。

溶源噬菌体区域的边界被确定为第一个和最后一个出现的关键蛋白质的位置。因为整合酶通常在温和噬菌体中编码,通常决定整合位点的特异性,所以将检查假定的附着位点,以寻找含有整合酶的假定溶源噬菌体簇。使用整合酶蛋白作为锚,因为每个簇包含一个整合酶,簇中10个上游和下游蛋白的序列将被提取,以使用BLASTN检测假定的attL-attR对。具有最高位分数和长度> =12 bp的attL-attR对,被认为是溶源噬菌体区域的假定att位点。最后,基于检测到的类噬菌体(phage-like)基因和溶源噬菌体内注释的分类信息,每个溶源噬菌体区域通过多数投票被分配一个分类。

image

优势

效率高(high efficiency)

大约需要1.35分钟~6.8分钟来检测完整细菌基因组中的溶源噬菌体(1.2 Mbp~7 Mbp)。

高召回率(high recall)

获得了100%极好的召回率

适用于高通量测序数据(Suitable for high-throughput sequencing data)

封装良好,易于安装.适用于完整和不完整测序的基因组

提供噬菌体注释(Provide phage annotation)

提供了一个定制的噬菌体数据库,以方便溶源噬菌体区域的注释

用户友好的可视化(User-friendly visualizations)

提供了一个用户友好的交互式超文本标记语言页面,用于在基因组浏览器中浏览溶源噬菌体,并在表格中提供详细的溶源噬菌体信息和细菌-噬菌体相互作用

自由修改的参数(Freely modified parameters)

使用户能够调整类噬菌体(phage-like)蛋白识别、att位点识别和噬菌体注释的参数

安装

需要的工具的版本

  • python3
  • blast+ > 2.8
  • perl=5.22
  • java
# 下载DBSCAN-SWA
get clone https://github.com/HIT-ImmunologyLab/DBSCAN-SWA

# 下载python工具包
sudo apt install python3-biopython
sudo apt install python3-numpy
sudo apt install python-sklearn

# 安装prokka,推荐使用conda安装
conda install prokka

# (源码安装prokka)下载prokka
git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

配置

/path/to 请替换为你下载软件的目录

## 添加环境变量,打开.bashrc文件,添加
export PATH=/path/to/ncbi-blast-2.10.0+/bin:$PATH
export PATH=$PATH:/path/to/DBSCAN-SWA/bin
export PATH=$PATH:/path/to/DBSCAN-SWA/software/diamond
export PATH=$PATH:/path/to/prokka/bin
## 修改权限
chmod u+x /path/to/DBSCAN-SWA/bin/dbscan-swa
chmod u+x /path/to/DBSCAN-SWA/bin/makeblastdb
chmod u+x /path/to/DBSCAN-SWA/software/diamond/diamond

使用

# 使用dbscan-swa命令
dbscan-swa --input <bac_path> --output <outdir> --prefix <prefix>
# 使用python脚本
python3 <path>/dbscan-swa.py --input <bac_path> --output <outdir> --prefix <prefix>

输出文件

总结文件

总结文件一个概述性的文件,其中包含了bacteria_id, bac_def, genome_size, prophage_end, key_proteins, best_hit_species, CDS_number, attl_region和attr_region这些信息。

image

prophage文件

溶源噬菌体文件主要介绍其中溶源噬菌体的蛋白质的情况,包含了prophage_protein_ID, prophage_protein_product, key_proteins, hit_protein_id, hit_species, identity和evalue这些信息。

image

prophage DNA序列文件

溶源噬菌体序列文件是一个fasta文件,里面是识别为溶源噬菌体的DNA序列。

image

prophage 蛋白质序列文件

溶源噬菌体蛋白质序列文件是一个fasta,里面包含了识别为溶源噬菌体的氨基酸序列。

image

参考文献

Rui Gan, Fengxia Zhou, Yu Si, Han Yang, Chuangeng Chen, Jiqiu Wu, Fan Zhang & Zhiwei Huang. (2020). DBSCAN-SWA: an integrated tool for rapid prophage detection and annotation. bioRxiv, 2020.2007.2012.199018, doi: https://doi.org/10.1101/2020.07.12.199018

Github主页:https://github.com/HIT-ImmunologyLab/DBSCAN-SWA

Prokka安装

延伸阅读

PHASTER http://phaster.ca/ (需科学上网)

Arndt, David, et al. “PHASTER: a better, faster version of the PHAST phage search tool.” Nucleic acids research 44.W1 (2016): W16-W21.

Zhou, You, et al. “PHAST: a fast phage search tool.” Nucleic acids research 39.suppl_2 (2011): W347-W352.



https://wap.sciencenet.cn/blog-3334560-1247217.html

上一篇:Nature子刊:机器学习方法扩展了anti-CRISPR蛋白家族的所有成员
下一篇:Windows10安装Linux子系统Ubuntu 20.04LTS,轻松使用生信软件,效率秒杀虚拟机
收藏 IP: 59.109.156.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 00:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部