植物分子育种分享 http://blog.sciencenet.cn/u/bioysy 欢迎对分子育种有兴趣的朋友们!

博文

利用MySQL库分析关于水稻基因的研究(三)

已有 3006 次阅读 2014-10-4 00:01 |个人分类:linux|系统分类:科研笔记

      前面两篇博文,介绍了数据的来源及把数据导入MySQL数据库的方法,对并涉及的基因表和文献表进行了简单的介绍。当然,如果只想简单的查下数据库里的基因或者文献。这两个表也可以用EXCEL打开,只是查询和分析没那么方便罢了。用MySQL不是那么容易入手,但入门了以后,会发现这个会比EXCEL方便得多。这东西我现在也只是会点皮毛,但就是这点皮毛,也让我感到的确是有用。所以,分享一本关于MySQL的电子书(http://yunpan.cn/cgqBFH6SgJjug (提取码:403e))。我这里的数据库是在LINUX系统下运行的,如果是windows下的MySQL,有的东西可能需要自己研究解决。比如把文献表中,日文字符干掉的方法。

      重新回到基因表(genelist_14922).这个表的字段如下:

row_namestrait_gene_idsymbolalternative_namename_enallelechromosome_noRAP_idis_mutantarmlocusexplanation_enrecommended_gene_symbolrecommended_gene_nameprotein_nameClass_name_enGene_Ontology_IDsTrait_Ontology_IDsGramene_ID

trait_gene_id,这个前面说过,和文献数据库中的Oryzabase_ref_Id一致,也就是说,知道了基因的trait_gene_id,就能根据这个号,在文献数据库中把相应的文献找到。在基因表中,这个号是没有重复的,而且每个基因都有一个对应的号.但基因符号(symbol),是有重复的。可以看下下面的例子:

SELECT symbol, COUNT( trait_gene_id ) 
FROM `genelist_14922` 
GROUP BY symbol
ORDER BY COUNT( trait_gene_id ) 

部分结果:


symbolcount(trait_gene_id) 递增
OsCAO, (cao-1, cao-2, cao-3, cao-4, cao-5)5
rpl25
rrn55
Gaijin5
25S rRNA7
R2R3-MYB28

 比如:Gaijin有5个不同的trait_gene_id

SELECT trait_gene_id, symbol, name_en, chromosome_no
FROM `genelist_14922` 
WHERE symbol = "Gaijin"

trait_gene_idsymbolname_enchromosome_no
16256GaijinGaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin3
16659GaijinGaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin8
16660GaijinGaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin12
16661GaijinGaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin11
16662GaijinGaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin

难怪,这是一个转座子,所以分布在不同的染色体上。

chromosome_no,染色体号。这个就不用多解释了。染色体上已知基因的分布(姑且把一个trait_gene_id当成一个基因)

SELECT chromosome_no, COUNT( trait_gene_id ) FROM `genelist_14922` GROUP BY chromosome_no
ORDER BY chromosome_no

chromosome_no 递增count(trait_gene_id)
1705
11550
10632
11664
12580
21155
31298
41042
5863
6987
7783
8719
9611
Mt179
Pt191

RAP_id,以Os开头的水稻基因编号,这个是根据水稻基因组序列,通过序列注释的方法产生的基因,所以这个字段如果有内容意味着基因的序列已知。一般情况克隆了的基因都会有个相应的RAP_id.但如果反过说,那就不对了。还有一种水稻基因的编号是以LOC开头的,这两者之间可以相互转化,比如在这里:http://rapdblegacy.dna.affrc.go.jp/tools/converter

有文献报道的RAP_id有多少,及其染色体分布如何?

SELECT chromosome_no, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY chromosome_no

chromosome_noCOUNT( DISTINCT RAP_id )
3
11035
10381
11391
12387
2870
3948
4651
5614
6623
7538
8492
9440

总数为7369

报道RAP_id数量,前10名的期刊:

SELECT journal, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY journal
ORDER BY COUNT( DISTINCT RAP_id ) 


journal
COUNT( DISTINCT RAP_id )
J. Exp. Bot.313
Gene442
Plant Cell505
Plant Cell Physiol.545
BMC Genomics626
Plant Mol. Biol.670
Plant J.748
Proc. Natl. Acad. Sci. U.S.A.974
PLoS ONE1079
Plant Physiol.2336






https://wap.sciencenet.cn/blog-479743-832893.html

上一篇:利用MySQL库分析关于水稻基因的研究(二)
下一篇:利用MySQL库分析关于水稻基因的研究(四)
收藏 IP: 117.15.62.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 14:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部