lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之双端序列合并

已有 2618 次阅读 2022-11-24 15:21 |系统分类:科研笔记

Dada2方法要求的输入测序数据必须是已经拆分样本(类似qiime1裂库)的测序数据,这个测序数据也必须是带质量信息的。对于双端测序数据,不要提前拼接,有些人可能会考虑先拼接,再把拼接好的测序数据当做单端测序数据进行分析,但是这就违背了dada2的假设,dada2假设随着测序长度的增长,测序质量会稍微增加,后急剧下降,而拼接好的序列,测序质量应该是先降低后增加的。因此如果计划使用DADA2来合并和消除双端数据的噪声,请在用DADA2去噪之前不要合并序列;DADA2可以将未合并的序列,在去噪过程中双端合并。

deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入,将对反向序列不作任何操作。请注意,deblur接受合并的序列,并将它们视为单端序列,因此如果使用deblur进行去噪,需要先合并读取。

1.       下载双端未合并数据(也可以只用自己拆分后的数据)

mkdir read-joining

cd read-joining

wget -c \

  -O   "demux.qza" \

  https://data.qiime2.org/2021.2/tutorials/read-joining/atacama-seqs.qza

demux.qza: 拆分后样本数据

2.       序列合并

qiime vsearch join-pairs \

    --i-demultiplexed-seqs demux.qza \

  --o-joined-sequences   demux-joined.qza

demux-joined.qza:合并结果

 

结果可视化

qiime demux summarize \

    --i-data demux-joined.qza \

    --o-visualization demux-joined.qzv

demux-joined.qzv: 可视化统计结果


image.png

这份摘要报告可以确定合并后序列大约可用长度(当用deblur去噪时,会回到这个问题上)。在这个可视化中查看质量图(箱线图)时,如果将鼠标悬停在一个特定的位置上,将看到有多少个序列至少有那么长(为计算序列质量而采样的序列数量统计)。记下最高的序列位置,其中大部分(比如,>99%)的序列至少有那么长。

例如,当将鼠标悬停在可视化箱线图中的一个黑箱体上时,可以看到40126个序列中随机挑选有10000个用于估计该位置的质量分数分布。当我将鼠标悬停在位置250(用红色方框表示)上时,我看到一些序列没有这么长,因为只有9994个序列用于估计该位置的质量分数分布。下面的红色框和红色文本告诉我,有些序列没有这么长。当我将鼠标悬停在254号位置(也用一个红框表示)上时,我看到许多序列没有这么长,因为只有845个序列用于估计该位置的质量分数分布。

基于对这些图的比较,注意到大多数序列至少有250个碱基长。从质量分数图中为--p-trim-length选择合适的序列长度值。这将把所有序列修剪到这个长度(250),并丢弃任何小于这个长度的序列。

【备注】某个位置的序列个数信息在文件Download forward parametric seven-number summaries as TSV 找到


【参考】

QIIME 2教程. 18序列双端合并read-joining(2021.2)_刘永鑫Adam的博客-CSDN博客

Dada2和deblur降噪质控过程详见:

科学网—QIIME 2教程之生成特征表和特征序列(案例二)

科学网—QIIME 2教程之生成特征表和特征序列(案例一) 




https://wap.sciencenet.cn/blog-994715-1365142.html

上一篇:QIIME 2教程之Barcode拆分和去除引物
下一篇:第二代测序技术原理精讲
收藏 IP: 120.244.188.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 03:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部