沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

R语言搜索DNA序列中的碱基组成非碱基符号

已有 4183 次阅读 2014-3-12 10:32 |个人分类:我的研究|系统分类:科研笔记| R语言, 搜索, 碱基组成, DNA序列, 非碱基符号

R语言搜索DNA序列中的碱基组成非碱基符号

 

#作者信息

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

# 预装函数

#搜索DNA序列中的非碱基符号#

 

#发表超过24小时,源代码不再公布。

 

#使用方法

#现在测序技术的发达,使得我们可以得到较长的序列,但是测序仪测出来的序列通常较短,小于600bp,因此往往通过拼接的方法得到长序列。拼接都是用相关的软件来完成的,这样就会在某些位点出现模棱两可的情况——一个位点由于测序信号都很弱或都很强,且碱基不一致。这个时候软件就使得该位点已包含所有可能性的简并碱基符号来代替具体碱基。当然,这是我们需要额外手工校对的地方,但是成千的上万的碱基,往往百密一疏。于是我们写下这个函数以检查序列的碱基组成,省去“肉眼”查找的繁重。

inputfilename = "XCM001.fas"   #导入fas格式序列,#注意应为单行序列

 

check.nucl(inputfilename)      #运行函数,返回如下结果

 

[1] "T" "A" "C" "G"


 




https://wap.sciencenet.cn/blog-508298-775264.html

上一篇:R语言从genbank注释文件中提取线粒体基因组非编码基因信息
下一篇:分子系统发育树的节点支持率多少才可信?
收藏 IP: 119.78.81.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-9 08:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部