woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

cap3拼接sanger序列:在线+本地分析方法实战

已有 5150 次阅读 2019-2-4 08:59 |个人分类:软件|系统分类:科研笔记

简介

Cap3是一款历史悠久的序列拼接软件,非常适合Sanger序列拼接。此软件于1999年发表于Genome Rsearch杂志,目前Google统计引用4885次(截止2019年1月30号)。

Huang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877.

优秀的软件都会有在线版和本地版两个版本。在线版方便小数据量的用户、或无法拥有服务器和缺少Linux系统软件安装经验的用户,轻松点击鼠标完成拼接。本地版,配合强大的命令行,可以批量完成大数据量的拼接。

在线版使用

http://doua.prabi.fr/software/cap3

最后更新时间为2014年1月。

image

可以在对话框中提交如2条及以上要拼接,且存在overlap的fasta格式序列(方向无所谓,软件会自己调整),点击提交(SUBMIT)即可。

结果如下:

  • Contigs:拼接的结果,一般就是你想要的结果;
  • Single sequences:末拼接的序列,如果都拼接成果,此链为空;
  • Assembly details:拼接详细,可以看到序列拼接多序列的方向,比对详细和一致序列,详见下面。
  • Your sequence file:你刚才提交的序列,可以复制内容保存

查看拼接的细节文件,有助于了解序列方向,拼接结构,碱基一致性等信息。

Number of segment pairs = 6; number of pairwise comparisons = 3
'+' means given segment; '-' means reverse complement

Overlaps            Containments  No. of Constraints Supporting Overlap

******************* Contig 1 ********************
27F+
515+
1492-

DETAILED DISPLAY OF CONTIGS
******************* Contig 1 ********************
                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT
                      ____________________________________________________________
consensus             TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA
                      ____________________________________________________________
consensus             ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA
                      ____________________________________________________________
consensus             CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG
                      ____________________________________________________________
consensus             GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG
                      ____________________________________________________________
consensus             GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT
                      ____________________________________________________________
consensus             GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG
                      ____________________________________________________________
consensus             CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG
                      ____________________________________________________________
consensus             ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG
515+                                                 AAGCGTGCGCAGGCGGCTTTGCAAGACAG
                      ____________________________________________________________
consensus             GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG
515+                  ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG
                      ____________________________________________________________
consensus             ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG

                          .    :    .    :    .    :    .    :    .    :    .    :
27F+                  CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
515+                  CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
1492-                     GGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
                      ____________________________________________________________
consensus             CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG

本地版使用

安装

软件安装,可以通过官网下载源代码 http://seq.cs.iastate.edu/cap3.html。在Linux, Mac, Windows, Solaris各主流系统版本。

但推荐使用conda安装,会自动安装它及相关的40余个依赖关系

conda install cap3

程序运行命令行

cap3 File_of_reads [options]

如: cap3 seq.fa

seq.fa中包括要拼接的序列,可以手动制作。也可以使用脚本。

准备输入文件

通常测序的结果为.seq文件。我们要将序列合并有一个共同的前缀,如RiceP14C02,使用我写的脚本format_seq2fasta.pl将其合并为fasta格式,脚本在我的 https://github.com/YongxinLiu/Note 中 Perl 文件夹中

如:输入文件保存于seq目录中名字如下:

seq/RiceP14C02_1492R.seq
seq/RiceP14C02_27F.seq
seq/RiceP14C02_515F.seq

合并一条序列的多个文件

file=RiceP14C02
format_seq2fasta.pl -i "seq/${file}_*.seq" -o ${file}.fa

对于另一个拼接的任务,你可以修改file等号后面的即可。想要批量调用,直接使用for循环即可

运行拼接

运行cap3,只需提供输入fa文件

cap3 ${file}.fa

结果有如下5个文件

  • RiceP14C02.fa.cap.ace:原始序列使用信息
  • RiceP14C02.fa.cap.contigs:拼接序列结果
  • RiceP14C02.fa.cap.contigs.links:空
  • RiceP14C02.fa.cap.contigs.qual:质量
  • RiceP14C02.fa.cap.info:信息
  • RiceP14C02.fa.cap.singlets:空

由于每个序列名称都叫Contig1,需要改名为序列名

sed -i "1 s/Contig1/${file}/" ${file}.fa

Reference

  1. Huang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877.
  2. 在线版 http://doua.prabi.fr/software/cap3
  3. 本地版 http://seq.cs.iastate.edu/cap3.html


https://wap.sciencenet.cn/blog-3334560-1160672.html

上一篇:免疫组库高通量分析工具:IGoR——更精确剖析免疫组库
下一篇:如何简化美化LEfSe分析结果中的Cladogram图
收藏 IP: 113.4.246.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 15:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部