mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

还在race拿全长?

已有 5617 次阅读 2018-6-6 10:50 |系统分类:科研笔记| 小麦, 基因组, jbrowse, pacbio, 454

 

还在race拿全长?

就小麦目前的情况来说,很多时候不需要再通过race实验拿全长了。在做race之前,我们手里拿到的序列很可能就已经是完整的序列了,甚至基因的上下游序列都是已知的。

我们都知道现在RNA-seq已经很普遍了。这些转录组数据多数是illumina平台上的产生的,少部分是454和PacBio等平台产生的。最近我们收集了部分454序列和PacBio的转录组序列,在分别将它们mapping至中国春1.0基因组上,最后放到我们的小麦族多组学网站上(http://202.194.139.32)上供大家查阅参考。接下来介绍下用法。

点击网站顶部“JBrowse”,出现下拉页面,点击“Chinese Sring (IWGSCv1.0)”,如下图的页面。

image-20180605144218147使用JBrowse的话,还是建议大家使用网线访问。如果很卡,数据加载慢,可以将区间放小一点。遇到浏览器卡死和崩溃,建议大家清空浏览器缓存后重启浏览器,重新打开即可。

这里我们以小麦里注明的Q基因为例,前段时间我们的小萌萌介绍过一篇PNAS经典品读-小麦驯化基因Q的进化分析, 近几年也有很多关于Q基因的报道,有兴趣的可以搜集下专题阅读下。通过NCBI检索,我们发现有201条核酸序列与Q基因有关,我们就以下图的第一条中的序列为例。

image-20180605145354863

点开之后,获取Q基因的CDS序列,如下。

>KX580304.1:142-554,653-678,782-812,909-996,1115-1260,1807-1851,1944-2047,2132-2274,2447-2563,3139-3369 Triticum aestivum cultivar shumai482 Q protein (Q) gene, Qc3 allele, complete cds
ATGGTGCTGGATCTCAATGTGGAGTCGCCGGCGGACTCGGGCACGTCCAGCTCCTCCGTGCTCAACTCCG
CGGACGCCGGTGGCGGCGGCTTCCGGTTCGGCCTGCTCGGGAGCCCTGATGATGACGACTGCTCCGGCGA
GCCGGCGCCGGTCGGGCCCGGGTTCGTCACGAGGCAGCTCTTCCCCGCGTCGCCGCCCGGGCACGCGGGC
GCGCCCGGGGTGACGATGGGGCAGCAGGCCCCGGCGCCTGCGCCGATGGCGCCCGTGTGGCAGCCGCGGC
GCGCCGAGGAGCTCCTCGTGGCGCAGCGGATGGCGCCCGCGAAGAAGACGCGGCGGGGGCCGAGGTCGCG
CAGCTCGCAGTACAGGGGCGTCACCTTCTACCGCAGGACCGGCCGGTGGGAGTCGCACATCTGGGATTGC
GGGAAGCAGGTCTACTTGGGTGGTTTCGACACTGCGCACGCGGCCGCAAGGGCCTACGATCGCGCGGCGA
TCAAGTTCCGGGGGCTGGAGGCCGACATCAACTTCAATCTGAGCGACTACGAGGAGGATTTGAAGCAGAT
GAGGAACTGGACCAAGGAGGAGTTCGTGCACATCCTCCGCCGCCAGAGCACGGGGTTCGCCAGGGGGAGC
TCCAAGTACCGCGGCGTCACGCTCCACAAGTGCGGCCGCTGGGAGGCAAGGATGGGCCAGCTGCTCGGCA
AGAAGTACATATATCTGGGCCTCTTTGACAGCGAAGTTGAAGCTGCAAGGGCGTACGACAGGGCGGCGAT
TCGCTTCAATGGGAGGGAAGCTGTGACTAACTTTGAGAGCAGCTCCTACAATGGGGATGCTCCACCCGAC
GCCGAAAATGAGGCAATTGTTGATGCTGATGCTCTTGACTTGGATCTGCGGATGTCGCAACCTACCGCGC
ACGATCCCAAGCGGGACAACATCATCGCCGGCCTTCAGTTAACTTTTGATTCCCCTGAATCGTCAACCAC
AATGATCTCTTCTCAGCCAATGAGCTCATCTTCTTCCCAGTGGCCTGTGCATCAACATGGCACGGCAGTA
GCACCTCAGCAGCACCAGCGTTTGTACCCATCTGCTTGTCATGGCTTCTACCCGAACGTACAGGTGCAGG
TGCAGGAGAGGCCCATGGAGGCAAGGCCCCCTGAGCAGCCGTCGTCCTTCCCCGGCTGGGGGTGGCAAGC
GCAAGCCATGCCGCCGGGCTCCTCCCACTCGCCGTTGCTTTACGCTGCAGTATCATCAGGATTTTCTACC
GCCGCCGCCGGCGCGAACCTCGCCCCGCCGCCGCCGTACCCGGACCACCACCGGTTCTACTTCCCCCGCC
CGCCGGACAACTGA

然后使用这个序列在我们网站上blast中国春1.0的编码基因数据库,如下。

image-20180605150229885

blast结果如下图,根据结果我们可知,我们查询的这条序列位于5A,同时5B和5D上也有。

image-20180605150406064

对应三个基因的名字是TraesCS5A01G473800.1,TraesCS5D01G486600.1,TraesCS5B01G486900.1。在jbrowse上查询这些基因的名字即可跳转到对应的区间。

image-20180605150904355

点击上图中的GO之后,跳到如下页面。

图中粉色表示外显子,灰底是内含子,箭头表示基因的方向图中粉色表示外显子,灰底是内含子,箭头表示基因的方向

右键点击上图中的转录本,可以获取外显子内含子序列,基因上游和下游序列。

右键点击之后会出现图中的菜单,点击"View Feature Sequence"右键点击之后会出现图中的菜单,点击"View Feature Sequence"

弹出的页面如下:

多点几次就可以获取所需序列,选择复制即可多点几次就可以获取所需序列,选择复制即可

好吧,其实我们还没有到今天的正题。

在jbrowse网页的左面显示的是“tracks”,也就是相关的数据集。这里我们要选择“pacbio RNA”和“454 RNA”,如下图所示。

image-20180605152442969image-20180605152442969

也可以将下面这个网址粘贴到浏览器地址栏(http://202.194.139.32/jbrowse/?data=Chinese_Spring&loc=chr5A%3A650126423..650131048&tracks=IWGSCv1.0_HighConf_LowConf_gene%2CCS_PE_rna_seq.coverage%2CLeaf_0.7-2kb%2CLeaf_3-5kb%2CSpike_2-3kb%2CStem_2-3kb%2Cfl_cDNA_454%2CEST_454%2CEST%2Cwheat_mRNA(NCBI_4565)%2CTGACv1&highlight=

如此这般,我们就可以拿到基因的全长了。

上面蓝色的那个来自RNA-seqread,可以用来判断基因结构,或者大概看下基因的表达,比如这个地方大概有7000多的reads支持,如果5B和5D上的reads数要低很多,则可以判断,5A上的基因是优势表达的。当然了具体的表达信息也是可以在我们网站查到的http://202.194.139.32/expression/index.html上面蓝色的那个来自RNA-seqread,可以用来判断基因结构,或者大概看下基因的表达,比如这个地方大概有7000多的reads支持,如果5B和5D上的reads数要低很多,则可以判断,5A上的基因是优势表达的。当然了具体的表达信息也是可以在我们网站查到的http://202.194.139.32/expression/index.html

全长cDNA5'端会加帽,即一个G,3'端会加polyA。大家可以根据这些特点进行判断。也要提醒大家一点,PacBio序列不是每一条都是全长序列,最好查资料熟悉PacBio,454,illumina等平台的测序特点,这样才能做出正确的判断。

如果没有数据支持也正常,毕竟数据是有限的,有些基因只在某一时段或条件或者某些细胞里表达,所以不要请不要奇怪。另外也要注意这里的序列mapping也有一定几率出错,特别是如果和预期冲突时要小心求证。

其实这些数据还可以反过来验证IWGSCv.0基因注释的正确性。

下图所示是Ms2基因,IWGSC1.0就没有注释出来,但是TGACv1.0注释出来了,同时我们还可以发现有wheat_mRNA序列支持,查了下这个的信息(NCBI编号JV888005),发现来自于贾继增研究员和孔秀英研究员在12年发表的一篇文章,里面就有太谷核不育材料。

image-20180605154345705image-20180605154345705

下面这个基因在1.0和TGAC里都漏掉了。

这个算是漏掉一个基因这个算是漏掉一个基因

让我们把注意力回到Q基因上,熟悉Q基因的人都知道该基因是miR172的靶基因。如果要要验证一个靶基因一般需要做RACE,但是现在可以先看看已发表的数据里是否有证据支持。这里需要用到降解组文库,jbrowse上有一个整合的降解组文库,点击页面的左面可以选择。

我们可以看到此处有降解组read支持,丰度还挺高,有情趣的是靶位点不在编码区,在3'端。这还要继续放大再确定,毕竟降解组reads很短,要看看序列是否唯一支持这个地方我们可以看到此处有降解组read支持,丰度还挺高,有情趣的是靶位点不在编码区,在3'端。这还要继续放大再确定,毕竟降解组reads很短,要看看序列是否唯一支持这个地方。

这是5B上的情况,TraesCS5B01G486900.1。

此处降解组reads竟然有两个峰,有兴趣的可以花时间研究下此处降解组reads竟然有两个峰,有兴趣的可以花时间研究下

这是5D上的情况,TraesCS5D01G486600.1。

5D上的靶位点就位于编码区5D上的靶位点就位于编码区

我们还可以看看此处有没有90k,820k,660k snp芯片支持。

820K,660K有SNP支持,图中红色的表示非同义突变,绿色表示同义突变,蓝色表示位于非编码区等820K,660K有SNP支持,图中红色的表示非同义突变,绿色表示同义突变,蓝色表示位于非编码区等

其中,820K还有品种材料的基因型信息,点击相应的SNP就可以看到,如下。

image-20180605163155447image-20180605163155447

今天就到这里吧,除了我们今天和前面介绍的信息,这里还有隐藏很多信息没有介绍,我们多次呼吁大家要多多探索,多了解一点,也许实验上就会少做一点。

下面放上前面的介绍,算是一个系列吧,当然该系列还有很多要介绍的。

最近,玉米和高粱的全长转录组又来了,近日genome research 在线了一篇题为“A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing”的研究。2016年的时候他们在NC上分别发表两篇关于玉米和高粱的全长转录组研究,这次再次聚焦全长转录组,也许对我们小麦研究有启示。

wheatomics2wheatomics2




https://wap.sciencenet.cn/blog-1094241-1117664.html

上一篇:2018年第20周小麦文献汇总(6.3)
下一篇:2018年第24周小麦文献汇总(6.15)
收藏 IP: 58.213.93.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-9 07:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部