mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

获取目标染色体区间内的基因和候选基因的筛选策略

已有 15424 次阅读 2018-7-30 09:31 |系统分类:科研笔记| wheat, genome, 小麦, 染色体区间获取

 现在小麦做正向遗传要方便很多了。标记开发不是问题,反而表型是关键。

将基因定位到某一区间后,除了开发标记往往还需要先看一看目标区间里的基因有没有疑似的候选基因。

那么如何快速获取候选区间内的基因呢?

今天我们介绍两种方法。以我们上周介绍的TaHdm605的介绍为例(普通小麦花期调控基因TaHdm605的精细定位)。该基因的旁侧标记是M27 和M310,序列如下。

>M310
GCAATGGTTATCTACATTGGA ATACAGGTGAGAAAAACGACA
>M27    
ATTACCATCAATTGCGTTATG TGCGGAAGTGTTATCAGAATA

以上述两个标记为查询序列blastn中国春1.0基因组(http://202.194.139.32/blast/viroblast.php)。根据两个标记所在物理位置确定候选区间chr3D:507019954..508810210。也即候选区间大概是1.79Mb。

知道了染色体区间,我们有两种方法获取区间内的候选基因。先说第一种,基于JBrowse,网址如下。

http://202.194.139.32/jbrowse/?data=Chinese_Spring&loc=chr3D%3A507020681..508810937&tracks=IWGSCv1.0_HighConf_LowConf_gene&highlight=

打开上述地址,即可看到区间内的所有基因。复制区间chr3D:507019954..508810210,按照下图所示操作即可。

2018-07-28 22_43_02.gif

复制之后粘贴到excel里,按照第三列排序,选择mRNA所在的行,继续整理之后即可获取区间内的基因,最终格式如下图所示。注意此方法同时也获取了基因的功能注释信息。

image-20180728225109340

第二种方法需要在下面的地址里下载三个文件。

https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Annotations/v1.0/
这里面的所有文件建议都下下下来,好好看。
本次需要下载的文件是
iwgsc_refseqv1.0_HighConf_2017Mar13.gff3.zip,iwgsc_refseqv1.0_LowConf_2017Mar13.gff3.zip
这俩文件记录了基因的信息,包括这次用到的位置信息。
这个文件里放置的是基因功能注释信息。iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip

到此本文的主要任务完成。类似的操作也可以获取目标区间里的其他类型的数据。写完这一部分我才发现去年10月份我们已经介绍过了《如何根据标记框定的区间查询区间内的基因》。不过时至今日,还是有些变化,大家灵活掌握吧。

下面我们简略的谈一谈如何进一步缩小区间内的候选基因数量。

首先看区间的基因,是否包括功能已知的基因,可以看在水稻、拟南芥等植物中的同源基因是否被报道过。我们以前介绍过Rht24的例子,就可以锁定基因。plant journal上看到一篇小麦株高关联分析的文章, 小麦矮杆基因Rht18不完全解读

再次可以根据区间的基因变异信息进行锁定,比较亲本之间,或者自然群体里的变异。jbrowse上面有很多材料的变异信息可以利用。

还可以继续结合基因的表达信息进一步确定。关于如何获取基因的表达,前面我们也已经介绍过了。基因表达不只是组织表达,根据突变体对环境响应的特点,可以看看在不同处理下候选基因的表达变化情况等。

本次的TaHdm605,作者首先确认目标区间没有已知与抽穗开花有关的基因,然后结合表达信息仍然没有锁定候选基因。

不能锁定在某一些方面来说也是好事,下一步的工作就是看目前区间内突变体和野生型之间的基因或序列差异在什么地方。

除了这些我们还可以使用共表达的方法继续筛选候选基因,如果目标区间内的基因与开花抽穗有关的基因共表达,那么这个基因很可能也与抽穗开花时间有关,进一步通过测序比较突变体野生型之间的序列,进而锁定可能的候选基因。

本例开花抽穗基因中,有些已知基因是转录因子,那么我们就可以预测下目标区间里是否有其靶基因。

现在小麦里有突变体库(小麦反向遗传学资源库---EMS突变体),而且这些突变体已经使用外显子组测序,这个也可以拿来进行候选基因的筛选和功能验证。

另外普通小麦是异源六倍体,一个基因往往有3个拷贝,那么我们也可以比较3个拷贝之间基因序列和基因表达方面的差异情况。

使用“十八般武艺”确定可能的候选基因后,下面就进入了小心求证阶段了。

做类似上面的分析时,也要时刻给自己提个醒,毕竟没有走正儿八经的图位克隆之路,参考基因组与自己使用的材料序列变异较大,参考基因组在目标区间组装出现错误等等因素。如果通过分析不能确定,那就按部就班的走图位克隆的流程。

111322tqabi88lp9z87ap1.jpg




https://wap.sciencenet.cn/blog-1094241-1126624.html

上一篇:2018年第30周小麦文献汇总(7.29)
下一篇:统计序列中的gap位置和大小
收藏 IP: 58.213.93.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 19:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部