Systems Biology分享 http://blog.sciencenet.cn/u/irc

博文

元基因组谱分析(metagenomic profile)的非负矩阵分解框架

已有 7609 次阅读 2011-6-8 09:11 |个人分类:科学笔记|系统分类:科研笔记| 元基因组

介绍一篇自己最近刚发表的小文,还新鲜着,欢迎各位老师同仁指正和交流! 简单介绍下,详细见文章免费下载网址:
http://www.springerlink.com/content/t6t2536581304492/

在元基因组学研究中,首先要将元基因组的数据(或短或长的reads)转化成各种谱矩阵来分析。比如说代谢谱(metabolic profile)矩阵, 物种分类谱(taxonomic profile)等。类似于基因表达谱,这里的谱矩阵是研究社团功能、结构的关键,通过分析谱矩阵,我们可以得出哪些功能、物种对哪些环境是特异的。而元基因组中的谱矩阵有一个很明显的特点,就是有大量的重叠(overlapping)--大量的代谢通路(或物种)存在于几乎所有样本中,因此一般的聚类方法往往会失效。

我们在这里应用了一个已有的方法--非负矩阵分解(NMF),并做了方法性的扩展。非负的意思是只对元素是非负的矩阵有效,而这里谱矩阵都是非负的,因为他们是基于对reads的BLAST统计得到的。总体的想法是用低维矩阵去逼近原来的谱矩阵,并得到样本的聚类,以及哪些代谢通路是样本类的指征通路(biomarker)。第一个问题是选择多少维的低维矩阵(模型选择)?这就好比聚类问题中,对数据聚多少类合适?已有的模型选择方法是基于聚类的,我们的方法不基于聚类,而是保留overlapping的模式,类似于模糊聚类,因此保留了数据的原始结构。在有overlapping的模拟数据上进行的分析结果表明,我们的这一改进提高了模型选择的准确度。另一个创新点是在可视化样本以及代谢通路的相似度矩阵时,我们采用了谱重排的方法,这对于大型的数据来说,在计算速度上有优势。谱重排的方法已经发展很久了,来源于图论,是一种目标函数的亚优化方法,又成功应用到了图像分割领域。基本思想是越相似的样本(或通路)在矩阵中排的离对角线越近。我们从NMF的结果直接定义样本和代谢通路相似度矩阵,然后对其进行谱重排,从而可以对谱矩阵进行可视化的调查。

该方法成功的应用到一套具有多个环境的元基因组代谢谱上,发现了一些环境特异的代谢通路,并讨论了该方法还可以发现数据中可能存在层级模式。

这个方法具有一般性,可以在任何非负矩阵上进行。生物数据中有很多谱矩阵,基因、蛋白表达谱,表型谱等,都可以用这个方法寻找特异性的基因、蛋白等biomarker。如对该方法感兴趣和有问题讨论,请联系我xingpengjiang@gmail.com





https://wap.sciencenet.cn/blog-216776-452829.html

上一篇:metagenomics几个研究热点
下一篇:抓个纪念
收藏 IP: 24.141.93.*| 热度|

1 赵立平

发表评论 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 17:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部