||
简单来说, 我们有三个方面的工作值得一提: 1. 在理论方面,给出了界值性质,该性质揭示了两类最流行的矩阵分解模型:非负矩阵分解模型和主成分分析模型 (奇异值分解) 之间的区别。非负矩阵分解是聚类分析领域中的一项新技术,其与奇异值分解的一个最显著不同在于非负矩阵分解有非负性的约束,但是该约束的本质含义是什么,一直以来还缺乏理论上的研究,我们给出的界值性质在很大程度上解决了这一问题; 2. 在算法方面,为二值矩阵分解模型设计了两种算法,即罚函数方法和阈值方法,并对它们的数值表现进行了系统比较,阐明了它们各自适用的情况; 3. 在应用方面,我们将二值矩阵分解模型成功地应用于基因表达数据的双聚类分析,结果表明,该模型与同类模型相比,提高计算精度十五个百分点以上 (作为参照,我们的结果还和聚类模型nsNMF, NMF/R进行了比较,结果也是我们的模型计算结果最好,而且nsNMF和NMF/R不能给出精确的双聚类结构),提高了结果的稀疏化水平约二十到五十五个百分点 (依数据而定),统计学分析表明我们给出的计算结果具有生物显著性.
二值矩阵分解模型作为聚类分析领域中的新模型,其在文本挖掘、观点分析、股票市场走势分析等领域都有广阔的应用前景。
文章地址: http://www.springerlink.com/content/y62142r517762595/?p=63070935b51d4d4aaef31c7a3378841e&pi=4
[1] Cheng Y, Church G (2000) Biclustering of expression data. In: Proceedings of the 8th international conference on intelligent systems for molecular biology: 93–103
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 19:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社