quantitative的个人博客分享 http://blog.sciencenet.cn/u/quantitative

博文

相关性网络计算新方法--MRHCA

已有 1751 次阅读 2018-6-29 16:48 |系统分类:论文交流

 

相关性网络被广泛应用于各个科研领域。随着大数据时代的来临,各学科所面对的数据中的变量正在大幅度增加。相关性网络以及相关性网络中的模块识别,是一种简单有效表达变量间关系的方法,被广泛用于数据挖掘与可视化。但是,传统相关性网络的一个缺点是内存占用过大(内存需求正比于N^2N为变量数目),以及模块检验花费过多的计算时间(要遍历所有相关性并比较,一般计算时间为N^ 3左右)。同时,传统的方法缺乏一种严谨的和精确的计算模块统计显著性方法,过去大多采取随机算法通过重复随机试验来产生模块统计量的经验分布,并计算显著性,这难以满足对大型网络计算时所需的内存与计算需求。

 

来自南达科他州立大学的Dr.Qin Ma 和来自印第安纳大学医学院的Dr.Chi Zhang开发了一个快速和低内存需求的相关性网络计算方法。通过开发并应用统计量Mutual RankMR),以及MR的数学性质,他们开发了一个基于MR值在随机相关网络中的经验分布和计算方法,并提供了相关的数学定理证明。这使得MR可以成为在相关性网络学习中可被使用的和可靠的统计量。 具体来讲,MR描述两个变量在相关网络中的相对重要性。大型相关性网络中的模块总存在着中枢变量(hub feature)。中枢变量对模块中其他变量的相对重要性较高,而MR值可以通过度量这种相对重要性,来确定每一个变量是否为中枢变量,以及统计显著性。这一套计算方法被命名为MRHCA

 

基于MR对相关性网络学习的优势包括:(1)具有较低的内存需求及计算复杂度;(2)广泛应用在不同的相关性及距离定义的网络上。本文中作者通过随机试验,证明了MR可以被应用在9种距离及相关性上。(近期他们在后续研究中,作者提出了MR值可以被应用的网络条件。只要满足某种相关性,在网络中变量数目较大时,一个随机数据中任何三个变量间的该相关性趋于相互独立,MR就可以被合理应用);(3)在生物转录组数据基因共表达的应用方面,相比于传统算法WGCNAMRHCA对弱相关模块结构和小型模块都更加敏感,并且允许所找到的模块兼有一定的相互覆盖,并排除不能构成显著模块的变量;(4)在微生物和癌症数据上,应用MRHCA能成功找到微生物应激与癌症中转录调控相关的共表达模块。作者同时公布了可以直接使用的基于R语言和C语言的计算工具包。

 

 

具体内容请关注Quantitative Biology期刊2018年发表在第1期的题为“MRHCA: a nonparametric statistics based method for hub and co-expression module identification in large gene co-expression network”的文章:https://link.springer.com/article/10.1007/s40484-018-0131-z




http://wap.sciencenet.cn/blog-2466550-1121458.html

上一篇:Quantitative Biology (QB)期刊2018年第1期文章

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-11-28 05:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部