wbb121的个人博客分享 http://blog.sciencenet.cn/u/wbb121

博文

使用QIIME分析微生物群落的16S rRNA序列(fastq格式序列)

已有 4236 次阅读 2018-5-31 10:01 |个人分类:生物统计软件|系统分类:科研笔记| QIIME, 16S rRNA, fastq, OTU

参考http://nbviewer.jupyter.org/github/biocore/qiime/blob/1.9.1/examples/ipynb/illumina_overview_tutorial.ipynb

https://forum.qiime2.org/t/qiime2-chinese-manual/838


下载数据

创建文件夹emp-single-end-sequences:

mkdir emp-single-end-sequences

fastq格式的序列文件:

wget -O "emp-single-end-sequences/sequences.fastq.gz" "https://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"

barcode sequences:

wget -O "emp-single-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"


生成映射文件并检查映射文件的正确性

映射文件的要求见http://qiime.org/documentation/file_formats.html#qiime-parameters

此处给出两个例子,一个正确的,map.tsv,一个错误的,map-bad.tsv

使用validate_mapping_file.py检查映射文件map.tsv的正确性,输出日志文件,html文件和corrected_mapping.txt文件。

validate_mapping_file.py -o ./vmf-map -m ./map.tsv

此时给出信息:"No errors or warnings were found in mapping file." 检测的结果在文件夹./vmf-map中。

使用validate_mapping_file.py检查映射文件map-bad.tsv的正确性

validate_mapping_file.py -o ./vmf-map-bad -m ./map-bad.tsv

此时给出信息:"Errors and/or warnings detected in mapping file.  Please check the log and html file for details." 可以查看产生的HTML摘要以找出存在的错误。然后在电子表格程序或文本编辑器中修复这些问题,重新运行validate_mapping_file.py检查更新后的映射文件。


质量过滤序列

使用split_libraries_fastq.py 对序列进行质量过滤,一般来说,序列和条形码有单独的fastq文件,

split_libraries_fastq.py -o slout / -i forward_reads.fastq.gz -b barcodes.fastq.gz -m map.tsv


OTU-picking

注意若是在NCBI等网站上下载处理过的序列,直接在此处开始即可

有三种策略,为pick_closed_reference_otus.pypick_open_reference_otus.pypick_de_novo_otus.py。此处以pick_open_reference_otus.py为例

pick_open_reference_otus.py -o otus / -i slout / seqs.fna -p ../uc_fast_params.txt

注意,该命令采用上一步中生成的文件seqs.fna。我们还为该命令指定了一些参数,这是该工作流程的内部。

    我们从这个命令中获得的主要输出是OTU table,或者每个样品中观察到的每个操作分类单位(OTU)的次数。QIIME使用基因组学标准联盟生物观察矩阵标准(BIOM)格式来表示OTU表格。可以在这里找到有关BIOM格式的更多信息,以及将这些文件转换为制表符分隔文本的信息,这些文本可以在此处电子表格程序中查看。这个命令生成几个OTU表。我们通常使用./otus/otu_table_mc2_w_tax_no_pynast_failures.biom。它有单个OTU(或总数为1的OTU),以及其代表序列不能与PyNAST对齐的OTU。它还包含每个OTU的分类分配作为观测元数据。pick_open_reference_otus.py命令还产生系统发育树,包含树的文件是./otus/rep_set.tre,并且是./otus/otu_table_mc2_w_tax_no_pynast_failures.biom下游系统发育多样性计算中应该使用的文件。树以广泛使用的newick格式存储




(未完)










http://wap.sciencenet.cn/blog-3388297-1116639.html

上一篇:R语言中安装biom包,读取.biom文件
下一篇:ubuntu中安装cmake

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-11-30 07:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部