mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

Ms1基因组重测序数据重分析--from sra to g.vcf.gz

已有 6043 次阅读 2018-1-12 11:58 |系统分类:科研笔记| 小麦, 基因组, Ms1, 重测序, 中国春

Ms1基因组重测序数据分析

Hi, 大家好!我是胖丫,今天的推送让我来。这篇很早就写好了,Ms1文章发布后,我们专门组织了一个再分析群,借此来学习和构建一个基本的分析流程,为以后开展相关课题做个基础。群里还有另外一个小伙伴广伟也在尝试这样的一个工作,他所使用的流程与我的不一样,原本想着一起推送出来,但终究没有如愿,人家早早的跑出结婚了,借此也恭喜他们。小麦基因组巨大,下载测序数据就有大概600G,分析过程中产生的一系列中间文件也是巨大无比,整个过程持续了一月之久,好在是计算机干活。本次分析重点在于打通分析流程,精力有限,所有程序的参数或者筛选条件等等均未优化过,所以在使用过程中大家还需根据结果多探索。本文也只是列出了代码以及简单的注释,没有过多的去讨论和说明很多额外的东西,主要还是因为我也是一个二把刀,也是初次尝试分析小麦重测序数据,也没有啥经验。所以,文中若有不足之处,万望指出。

言归正传,我们前面推送了三篇与Ms1有关的文章,不了解的小伙伴可以点击下面的链接了解。

PNAS在线发表MS1的图位克隆工作--方法值得借鉴

兼听则明,有容乃大--- 由最近Ms1的文章想到的

call variations from wheat RNA_seq --以MS1为例

大家也看到了,前面我们已经分析过RNA_seq数据了。由于我们已经知道了是哪个基因的突变以及突变位点,所以我们首先查看了ms1e突变体和野生型的Ms1(TraesCS4B01G017900.1)基因的序列,然而,我们并未发现报道的突变位点有变异,再看了一些突变位点的reads数目,发现较少。所以,我们推测这可能是因为覆盖度不够导致的。所以就得看全基因组重测序数据了。

首先需要下载sra文件,将不含后缀的文件名(即不含.sra)保存在一个名为“dnainput.txt”的文件中,每行一个sra文件名。本脚本需要的程序有:

1、pfastq-dump

2、BWA (BWA index网上教程多的是,未列出)

3、sentieon

4、运行上述软件所需要的背景软件

输入文件: dnainput.txt

输出文件: .g.vcf.gz .g.vcf.gz.tbi

提醒:本文只是建立一个基本的流程,具体到每个项目中,还需要根据目的调整和优化相关流程或参数。本代码一次只mapping一个样本的数据,这里列出的是野生型的mapping过程,最终生成g.vcf文件。

合并多个gvcf生成vcf文件;

因为我们使用的参考序列染色体被分成了两部分,这里要先合并起来。

python combine_vcf.py > Ms1_DNA_whole.vcf

下面一步就是筛选SNP,用来计算突变体和野生型的SNP index以及两者的比值。筛选这一步我也没有啥经验,参考文章标准的标准以及自己摸索了一些标准,感觉都不是太理想,代码也就不列出了,精力有限,也就没在继续折腾下去。好在,从结果来看,还是可以看到4B上有峰存在,也即能够检测到突变位点位于4B染色体的某一段,如下图。

至此,分析告一段落,下面说一下有意思的发现。首先,RNA_seq能检测到的多态,但是在DNA_seq里却没有,猜测在RNA反转录过程中会引入一些错误。第二就是RNA_seq测序寻找候选基因基因时一定要选对时间点。第三是关于Ms1这个基因的,如下图,此处能检测到ms1e的突变,除了这些,同时还发现,在Ms1基因下游的表达量要远高于上游,貌似是紧挨着Ms1的一个基因,该基因并未注释出来,通常认为与Ms1是在同一个转录本上。另外,还发现Ms1下游也有降解组reads支持,这说明此处也许有small RNA参与调控,上述表达丰度的不同可能就是此处的small RNA导致的。最终是不是与雄性不育有关还需要更多的实验证据验证。期待未来某一天有人能够阐明此处的生物学作用。




https://wap.sciencenet.cn/blog-1094241-1094484.html

上一篇:Bulked sample/segregant analysis (BSA) 技术
下一篇:小麦 PAG 2018 摘要 (一)
收藏 IP: 58.213.93.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-6 21:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部