ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

富集分析,俩人做的结果差5岁 | 你用的注释文件有多老?

已有 3454 次阅读 2017-12-18 12:45 |个人分类:RNA-seq|系统分类:科普集锦| RNA-seq


本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小哈  来源:嘉因

大家都会做方便面,有人做辛拉面,有人做三鲜伊面,工艺有何不同?


大家都会做RNA-seq,有人能筛出有意义的基因,有人能找出有价值的线索,有人。。。差别在哪?


前三期介绍了数据均一化处理、差异基因筛选和画heatmap的合理方法:


第一期:数据预处理:同一套RNA-seq,为什么公司做的跟师兄跑的结果不一样? | TPM、read counts、RPKM/FPKM你选对了吗?


第二期:差异基因筛选:同一套RNA-seq,公司筛出的差异基因跟师兄筛出的为什么不一样?| Pvalue, FDR, cutoff


第三期:heatmap:heatmap画不好会得出错误结论 | 数据预处理、聚类分析,HCL、 K means里的讲究


本文看富集分析有啥讲究?




最靠谱的富集分析,超炫的展示方式,TCGA也是他的粉丝【老客户福利】一文中谈到,clusterProfiler的优势之一是注释最新,大部分工具做KEGG富集分析用的都是2012年的版本,只有clusterProfiler实时抓取KEGG最新版数据做富集分析。


2016年8月,有人专门吐槽各种富集分析工具用的注释有多老,探讨过时的注释对富集分析结果的影响。


3900篇文章中67%用的工具注释版本古老,只用到了当前biological processes和pathway注释资源的26%。其实GO注释每天都在更新,Pathway数据库例如Reactome和PathwayCommons每个季度都在更新。42%的工具超过5年没更新,例如被引用次数超级高的DAVID,没错,就是那个鹤立鸡群的红色bar:

DAVID当时的版本是2010年的,被吐槽后两个月,2016年10月终于更新到目前的版本。




五年来,注释文件发生了哪些变化呢?


Biological process的GO注释term是5年前的2倍,Reactome Pathway的注释term是5年前的1.5倍。

人和小鼠的注释是5年前的2倍,其他模式生物缓慢些,1.3倍。

多数gene参与的pathway数从2010年的10个增加到2016年的16个。

GO注释中有些是计算机自动给出的,叫做电子注释,IEA(inferred from electronic annotations),2009年电子注释IEA占37%,2016年,IEA仅剩14%。也就是说,目前86%的注释都是有实验证据的,比5年前更可靠。

未注释的蛋白从5年前的12.4%降到4.9%,蛋白质功能注释越来越全了。




过时的注释会对富集分析结果造成哪些影响呢?


举个栗子,具体分析一套数据。


紫色是用2016年的注释做富集分析得到显著富集的term数,再看2010年的黄色,呵呵!

用2010年的注释做富集分析,丢掉了好多pathway。只有用2016年的注释才能找出紫色的圆圈。



赶紧看看自己的数据是拿什么年代的注释做的富集分析,是不是该更新了?或许会有更interesting的发现呢!




最后看statQuest用m&m豆讲富集分析原理






https://wap.sciencenet.cn/blog-3372875-1090303.html

上一篇:heatmap画不好会得出错误结论
下一篇:链特异RNA-seq数据不这么看就浪费了 | antisense上的lncRNA-seq
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 12:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部