沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

R语言提取genbank大文件的特定行

已有 11510 次阅读 2016-6-1 09:47 |个人分类:我的研究|系统分类:科研笔记| R语言, 提取, genbank, 大文件, 特定行

R语言提取genbank大文件的特定行

 

#作者信息

熊荣川

明湖实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

# 预装函数

#Genbank中下载的gb格式文件含有序列有关的丰富的信息,但是有时候由于我们的下载关键词过于宽泛,导致下载下来的gb文件太大而打不开。下面是一个R语言函数,用于读取gb格式大文件,并将含有特定关键词的行提取出来。结果汇集到用户设定的“outfile”文件中,同时返回一个表格便于作下一步分析。

 

# R语言提取genbank大文件的特定行

 

genbank.tag <- function(infle, keyword, outfile){

}

原始代码已在发布24小时后删除

请继续关注我们的最新博文

 

#使用方法

path = "D:……"

setwd(path)

infle =  "XX.gb"   #要读取的gb格式大文件

keyword = "LOCUS   "  #提取该有该关键词的特定行

outfile = "序列号基本信息.txt" #结果输出到这个文件中

mat = genbank.tag (infle, keyword,      outfile)

write.csv(mat,file = "序列号基本信息.csv")

对于不能很好的返回表格文件的提取项目

path = "……"

setwd(path)

infle =  "XX.gb"

keyword = "***"

outfile = "XXX.txt"

genbank.tagB (infle, keyword, outfile)

mat = read.table(outfile) #读表格时经常出错

write.csv(mat,file = "XXX.csv")



 




https://wap.sciencenet.cn/blog-508298-981650.html

上一篇:系统发育学相关工具软件清单(持续更新中)
下一篇:R语言新加入的数字在序列中的位置提取

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-17 14:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部