jiaanqiang的个人博客分享 http://blog.sciencenet.cn/u/jiaanqiang

博文

基因组重复序列之标准分析(de novo重复序列库)

已有 4859 次阅读 2021-8-1 17:21 |系统分类:科研笔记

使用RepeatMolder,ltr_finder,LTR_retriever和RepeatMasker分析基因组重复序列(个人经验分享),主要是针对常规的流程RepeatMolder和RepeatMasker分析的结果中出现Unclassfied比例较高进行调整。


第一步:使用RepeatMolder构建重复序列库 

BuildDatabase -name Species Species_genome.fasta 

RepeatModeler -pa 30 -database Species 

结果文件Species-families.fa为重复序列库 


第二步:使用ltr_finder和LTR_retriever寻找LTR库 

ltr_finder -D 15000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Species_genome.fasta > Species.scn

LTR_retriever -genome Species_genome.fasta -infinder Species.scn -threads 20 

结果Species_genome.fasta.mod.LTRlib.fa文件为LTR库 


第三步:构建重复序列库,先删除RepeatModeler中的LTR序列,因为ltr_finder和LTR_retriever也是寻找的LTR库,不然两部分的LTR会有重复 

seqkit grep -vnrp '#LTR' Species-families.fa > Species_noLTR.fasta 

cat Species_noLTR.fasta Species_genome.fasta.mod.LTRlib.fa > Species_repeat.fa 

结果Species_repeat.fa为初步获得的重复序列库 


第四步:对Unclassfied的序列进行进一步分类 将重复序列分为unknowns和knowns部分,然后对unknowns进一步分类 

seqkit grep -nrp '#Unknown' Species_repeat.fa > Species_repeat_unknowns.fasta 

seqkit grep -vnrp '#Unknown' Species_repeat.fa > Species_repeat_knowns.fasta 

下载公共数据库的重复序列,并同源比对,取最佳比对即可 

wget -c http://www.hrt.msu.edu/uploads/535/78637/Tpases020812.gz 

makeblastdb -in Tpases020812 -dbtype prot 

blastx -query Species_repeat_unknowns.fasta -db Tpases020812 -evalue 1e-10 -num_alignments 1 -outfmt 6 

将Unknown的序列的名字替换成blastx最佳比对的重复序列名字,记为Species_Tpases020812.fa,没有比对上的即为Species_noTpases020812.fa 替换后合并Species_repeat_knowns.fasta,Species_noTpases020812.fa和Species_Tpases020812.fa作为最终重复序列库Species_repeat_finna.fa 


第五步:使用RepeatMasker进行重复序列分析(建议使用4.1.1以上的版本) 

RepeatMasker -pa 30 -s -no_is -dir ./ -a -gff -lib Species_repeat_finna.fa Species_genome.fasta 

结果Species_genome.fasta.tbl即为重复序列分类结果,以gff结尾的为位置信息。


总结:该分析流程结果跟多篇文献结果类似,结果较为准确,供大家使用参考和提出建议。(此外,如果该流程分析出来的Unclassfied比例还是较高,最后可将Species_repeat_finna.fa再分为unknowns和knowns,并用blast对unknowns比对knowns,将和knowns比对上的序列删除,然后将没比对上的和knowns合并为最终的重复序列库)



https://wap.sciencenet.cn/blog-3465482-1297912.html


收藏 IP: 14.106.107.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 11:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部