NiuXiangna的个人博客分享 http://blog.sciencenet.cn/u/NiuXiangna

博文

统计FastQ/FastA文件信息

已有 78 次阅读 2025-7-4 08:55 |系统分类:科研笔记

Seqkit2 Seqkit 的新版本,是一个专门用于处理和分析生物序列数据的软件工具。它支持多种序列数据格式,包括FASTAFASTQ等,并提供了一系列有用的功能,如数据处理、过滤、统计、格式转换等,是生物信息学领域中常用的工具之一。以下是使用seqkit统计FastQ/FastA文件信息。

stat/stats子命令:FASTA/Q文件的简单统计

# Usage: seqkit stats [flags]

# flags:

-N, --N strings: 添加其他类似 N50 的统计作为新列。值范围为 [0, 100],支持多个值,例如 -N 50,90 -N 50 -N 90

-a, --all: 显示所有统计信息,包括序列长度的四分位数、总间隙数、N50 等。

-b, --basename: 只输出文件的基本名称,不包含路径信息。

-E, --fq-encoding string: 指定 FASTQ 质量编码格式。可用值为 'sanger''solexa''illumina-1.3+''illumina-1.5+''illumina-1.8+'。默认为 'sanger'

-G, --gap-letters string: 指定间隙字符,默认为 "- ."

-h, --help: 显示关于 stats 子命令的帮助信息。

-e, --skip-err: 跳过错误,仅显示警告消息。

-S, --skip-file-check: 在给定文件或文件列表时跳过输入文件检查。

-i, --stdin-label string: 替换标准输入的默认标签 "-"

-T, --tabular: 以机器友好的表格格式输出统计信息。

# 帮助信息查看

 seqkit stats -h

# 下载参考序列,一个fastq文件,两个fasta文件

wget http://data.biostarhandbook.com/reads/duplicated-reads.fq.gz

wget ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.1.1.genomic.fna.gz

wget ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.1.protein.faa.gz

# 统计FastQ/FastA文件信息

seqkit stat *.gz

# 显示所有统计信息

seqkit stat -ab *.gz

# 将统计结果保存为制表符分隔文件

seqkit stats -ab -T *.gz > stats_output.tsv

 我们将持续分享微生物组学研究和生信分析的专业技能资料。相关课程请于浏览器搜索“密码子学院”。课程问题或个性化分析需求,请联系小唯(微信号:winnerbio01)。



https://wap.sciencenet.cn/blog-3447233-1492268.html

上一篇:fastq格式文件转换成fasta文件
收藏 IP: 183.193.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-5 20:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部