||
前面两篇博文,介绍了数据的来源及把数据导入MySQL数据库的方法,对并涉及的基因表和文献表进行了简单的介绍。当然,如果只想简单的查下数据库里的基因或者文献。这两个表也可以用EXCEL打开,只是查询和分析没那么方便罢了。用MySQL不是那么容易入手,但入门了以后,会发现这个会比EXCEL方便得多。这东西我现在也只是会点皮毛,但就是这点皮毛,也让我感到的确是有用。所以,分享一本关于MySQL的电子书(http://yunpan.cn/cgqBFH6SgJjug (提取码:403e))。我这里的数据库是在LINUX系统下运行的,如果是windows下的MySQL,有的东西可能需要自己研究解决。比如把文献表中,日文字符干掉的方法。
重新回到基因表(genelist_14922).这个表的字段如下:
trait_gene_id,这个前面说过,和文献数据库中的Oryzabase_ref_Id一致,也就是说,知道了基因的trait_gene_id,就能根据这个号,在文献数据库中把相应的文献找到。在基因表中,这个号是没有重复的,而且每个基因都有一个对应的号.但基因符号(symbol),是有重复的。可以看下下面的例子:
SELECT symbol, COUNT( trait_gene_id )
FROM `genelist_14922`
GROUP BY symbol
ORDER BY COUNT( trait_gene_id )
部分结果:
比如:Gaijin有5个不同的trait_gene_id
SELECT trait_gene_id, symbol, name_en, chromosome_no
FROM `genelist_14922`
WHERE symbol = "Gaijin"
难怪,这是一个转座子,所以分布在不同的染色体上。
chromosome_no,染色体号。这个就不用多解释了。染色体上已知基因的分布(姑且把一个trait_gene_id当成一个基因)
SELECT chromosome_no, COUNT( trait_gene_id ) FROM `genelist_14922` GROUP BY chromosome_no
ORDER BY chromosome_no
RAP_id,以Os开头的水稻基因编号,这个是根据水稻基因组序列,通过序列注释的方法产生的基因,所以这个字段如果有内容意味着基因的序列已知。一般情况克隆了的基因都会有个相应的RAP_id.但如果反过说,那就不对了。还有一种水稻基因的编号是以LOC开头的,这两者之间可以相互转化,比如在这里:http://rapdblegacy.dna.affrc.go.jp/tools/converter
有文献报道的RAP_id有多少,及其染色体分布如何?
SELECT chromosome_no, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY chromosome_no
总数为7369
报道RAP_id数量,前10名的期刊:
SELECT journal, COUNT( DISTINCT RAP_id ) FROM `genelist_14922` , reflist_14922
WHERE LEFT( RAP_id, 2 ) = "Os" AND trait_gene_id = Oryzabase_ID GROUP BY journal
ORDER BY COUNT( DISTINCT RAP_id )
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-26 14:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社