博文

利用MySQL库分析关于水稻基因的研究（三）

已有 3006 次阅读 2014-10-4 00:01 |个人分类:linux|系统分类:科研笔记

前面两篇博文，介绍了数据的来源及把数据导入MySQL数据库的方法，对并涉及的基因表和文献表进行了简单的介绍。当然，如果只想简单的查下数据库里的基因或者文献。这两个表也可以用EXCEL打开，只是查询和分析没那么方便罢了。用MySQL不是那么容易入手，但入门了以后，会发现这个会比EXCEL方便得多。这东西我现在也只是会点皮毛，但就是这点皮毛，也让我感到的确是有用。所以,分享一本关于MySQL的电子书（http://yunpan.cn/cgqBFH6SgJjug （提取码：403e））。我这里的数据库是在LINUX系统下运行的，如果是windows下的MySQL,有的东西可能需要自己研究解决。比如把文献表中，日文字符干掉的方法。

重新回到基因表（genelist_14922）.这个表的字段如下：


row_names	trait_gene_id	symbol	alternative_name	name_en	allele	chromosome_no	RAP_id	is_mutant	arm	locus	explanation_en	recommended_gene_symbol	recommended_gene_name	protein_name	Class_name_en	Gene_Ontology_IDs	Trait_Ontology_IDs	Gramene_ID

trait_gene_id,这个前面说过，和文献数据库中的Oryzabase_ref_Id一致，也就是说，知道了基因的trait_gene_id,就能根据这个号，在文献数据库中把相应的文献找到。在基因表中，这个号是没有重复的，而且每个基因都有一个对应的号.但基因符号（symbol）,是有重复的。可以看下下面的例子:

SELECT symbol, COUNT( trait_gene_id )
FROM `genelist_14922`
GROUP BY symbol
ORDER BY COUNT( trait_gene_id )

部分结果：


symbol	count(trait_gene_id)
OsCAO, (cao-1, cao-2, cao-3, cao-4, cao-5)	5
rpl2	5
rrn5	5
Gaijin	5
25S rRNA	7
R2R3-MYB	28

比如：Gaijin有5个不同的trait_gene_id

SELECT trait_gene_id, symbol, name_en, chromosome_no
FROM `genelist_14922`
WHERE symbol = "Gaijin"

trait_gene_id	symbol	name_en	chromosome_no
16256	Gaijin	Gaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin	3
16659	Gaijin	Gaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin	8
16660	Gaijin	Gaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin	12
16661	Gaijin	Gaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin	11
16662	Gaijin	Gaijin element, MITE Gaijin, miniature inverted repeat transposable element Gaijin

难怪，这是一个转座子，所以分布在不同的染色体上。

chromosome_no,染色体号。这个就不用多解释了。染色体上已知基因的分布（姑且把一个trait_gene_id当成一个基因）

SELECT chromosome_no, COUNT( trait_gene_id ) FROM `genelist_14922` GROUP BY chromosome_no
ORDER BY chromosome_no

chromosome_no	count(trait_gene_id)
	1705
1	1550
10	632
11	664
12	580
2	1155
3	1298
4	1042
5	863
6	987
7	783
8	719
9	611
Mt	179
Pt	191

RAP_id,以Os开头的水稻基因编号，这个是根据水稻基因组序列，通过序列注释的方法产生的基因，所以这个字段如果有内容意味着基因的序列已知。一般情况克隆了的基因都会有个相应的RAP_id.但如果反过说，那就不对了。还有一种水稻基因的编号是以LOC开头的，这两者之间可以相互转化，比如在这里：http://rapdblegacy.dna.affrc.go.jp/tools/converter

有文献报道的RAP_id有多少，及其染色体分布如何？

SELECT chromosome_no, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY chromosome_no


chromosome_no	COUNT( DISTINCT RAP_id )
	3
1	1035
10	381
11	391
12	387
2	870
3	948
4	651
5	614
6	623
7	538
8	492
9	440

总数为7369

报道RAP_id数量,前10名的期刊：

SELECT journal, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY journal
ORDER BY COUNT( DISTINCT RAP_id )

journal	COUNT( DISTINCT RAP_id )
J. Exp. Bot.	313
Gene	442
Plant Cell	505
Plant Cell Physiol.	545
BMC Genomics	626
Plant Mol. Biol.	670
Plant J.	748
Proc. Natl. Acad. Sci. U.S.A.	974
PLoS ONE	1079
Plant Physiol.	2336

转载本文请联系原作者获取授权，同时请注明本文来自闫双勇科学网博客。
链接地址：https://wap.sciencenet.cn/blog-479743-832893.html

上一篇：利用MySQL库分析关于水稻基因的研究(二)
下一篇：利用MySQL库分析关于水稻基因的研究（四）

收藏 IP: 117.15.62.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

闫双勇

扫一扫，分享此博文

全部作者的精选博文

• 注意区分gene和allele

植物分子育种分享 http://blog.sciencenet.cn/u/bioysy 欢迎对分子育种有兴趣的朋友们！

博文

利用MySQL库分析关于水稻基因的研究（三）

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

闫双勇

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

植物分子育种分享 http://blog.sciencenet.cn/u/bioysy 欢迎对分子育种有兴趣的朋友们！

博文

利用MySQL库分析关于水稻基因的研究（三）

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

闫双勇

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)