李雷廷
生物信息学FAQ:怎样找染色体序列的长度
2016-7-25 10:58
阅读:11951

染色体序列长度可以用于分析基因在染色体上的相对位置长度,也可以用于对比近缘物种的染色体大小。

要找染色体序列的长度,一般有两种方法:

  1. 从文献和基因组网站上陈列的信息中找

  2. 从染色体序列文件中分析

第一种方法容易理解,这里重点谈一下第二种方法,也就是怎么从染色体序列文件中去分析染色体序列文件。一般而言,一个已经发布的基因至少包含组装的染色体序列的FASTA格式的文件、注释基因的GFF文件。至于CDS序列文件、蛋白质序列文件、内含子序列文件等都可以从染色体序列的FASTA格式文件和注释基因的GFF文件中提取出来。

那么怎么从组装的染色体序列的FASTA格式文件中提取出各个染色体序列的长度呢?本质上是统计FASTA格式序列文件中各条序列的长度。根据操作方法也可以分为两种方法:

  1. 通过图形界面的软件分析FASTA格式的文件,比如BioEdit、Genious、UGene等。一般情况下把FASTA序列导入到这些软件中后,软件会分析序列长度等信息。

  2. 通过命令行工具分析FASTA格式文件,比如 p5-bpwrapper中的 bioseq -l 命令,seqtk comp命令;或者自己利用BioPerl、BioPython、BioRuby、BioJava等编程语言的程序包自己写一些小脚本。

转载本文请联系原作者获取授权,同时请注明本文来自李雷廷科学网博客。

链接地址:https://wap.sciencenet.cn/blog-656335-992645.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?