生物信息学FAQ:怎样找染色体序列的长度
2016-7-25 10:58
阅读:11951
染色体序列长度可以用于分析基因在染色体上的相对位置长度,也可以用于对比近缘物种的染色体大小。
要找染色体序列的长度,一般有两种方法:
从文献和基因组网站上陈列的信息中找
从染色体序列文件中分析
第一种方法容易理解,这里重点谈一下第二种方法,也就是怎么从染色体序列文件中去分析染色体序列文件。一般而言,一个已经发布的基因至少包含组装的染色体序列的FASTA格式的文件、注释基因的GFF文件。至于CDS序列文件、蛋白质序列文件、内含子序列文件等都可以从染色体序列的FASTA格式文件和注释基因的GFF文件中提取出来。
那么怎么从组装的染色体序列的FASTA格式文件中提取出各个染色体序列的长度呢?本质上是统计FASTA格式序列文件中各条序列的长度。根据操作方法也可以分为两种方法:
通过图形界面的软件分析FASTA格式的文件,比如BioEdit、Genious、UGene等。一般情况下把FASTA序列导入到这些软件中后,软件会分析序列长度等信息。
通过命令行工具分析FASTA格式文件,比如 p5-bpwrapper中的 bioseq -l 命令,seqtk comp命令;或者自己利用BioPerl、BioPython、BioRuby、BioJava等编程语言的程序包自己写一些小脚本。
转载本文请联系原作者获取授权,同时请注明本文来自李雷廷科学网博客。
链接地址:https://wap.sciencenet.cn/blog-656335-992645.html?mobile=1
收藏
当前推荐数:0
推荐到博客首页
网友评论0 条评论