muzi0202的个人博客分享 http://blog.sciencenet.cn/u/muzi0202

博文

Fastaq——fasta文件转化为fastq文件

已有 9813 次阅读 2020-9-9 08:19 |系统分类:科研笔记

分析背景


FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+” 开头,随后是序列描述信息或者什么都不加;第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,如下图所示:
FASTA:第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。;从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。如下图所示:

Fastq与Fasta是生信分析最基础的格式之一,数据质量的好坏对后面的下游分析起着至关重要的作用,且二者可以相互转化,今天小编就分享一个由python编写的小工具Fastaq,能够直接将fasta文件和质量值文件转化为fastq文件,话不多说,直接上教程。
安装工具

1.下载工具Github网站下载:原始文件,如下图所示;

2.将下载下来的文件拷贝服务器上并用unzip命令解压,如下图所示;
3.安装程序
3.1 查看安装帮助信息

python setup.py --help
3.2 检测安装环境

python setup.py test
3.3 安装小程序

python setup.py install

3.4 查看是否安装成功

实战演练
  1. 文末扫码关注微信公众号,后台回复关键词“fastq小工具”,获取软件安装包和测试数据下载链接。



faTofq.mp4


2.测试数据格式如下图所示
注意:fasta文件与质量值文件中的序列标号要相同,且要一样对应
3.运行程序

fastaq fasta_to_fastq --help

说明:这个小程序需要输入一个fasta文件,一个质量值文件,以及输出的fastq文件名称,程序很简单,但是功能强大。

fastaq fasta_to_fastq test.fasta test.qual tetst.fastq
4.结果文件

说明
1.fastaq是一个工具集,主要功能是操作fastq文件与fasta文件,将fasta文件与对应的质量值文件转化为fastq文件只是其中的一个功能,还包括对fastq文件进行切分,过滤,提取序列的ID等功能,小编会在以后的推文中给大家介绍,感兴趣的小伙伴可以阅读官方帮助文档。
2.感谢维康桑格研究所提供的源代码文件。
微信公众号图片.png




https://wap.sciencenet.cn/blog-3445347-1249822.html

上一篇:UpSet——可视化的集合图
下一篇:使用SnapGene viewer绘制比较基因簇结构图
收藏 IP: 183.195.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 19:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部