||
构建出基于医学文献的基因相互作用网络是文本挖掘在生物信息学中最为重要的应用。从生物医学文献中抽取潜在的基因关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。最近,基于奇异值分解(singular value decomposition)的潜在语义标引(latent semantic indexing)已经应用于基因检索上。然而,用于降低秩矩阵的因子K的取值仍然是一个悬而未解的问题。
本文介绍了一种将基因关系的先验知识加入到LSI/SVD中来确定因子数的方法。我们还探讨了利用非负矩阵因子分解(non-negative matrix factorization NMF)通过利用已知的基因关系从生物医学文献中抽取未能识别的基因关系。基于NMF和LSI/SVD的基因检索方法现实出较好的性能。
结论
使用某个特定基因的已知的基因关系,我们确定了用于减少矩阵秩的因子数,并且采用LSI/SVD或者GR/NMF方法检索到与该基因相关的未识别的基因。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 14:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社