DeepAtlas:一种有效的流形学习工具
在过去的几十年里,高维数据的收集和分析已成为跨农业、土木工程、环境研究、金融与经济、销售等广泛不同领域的主要主题。高维数据对单细胞基因组学尤其是一个问题,例如单细胞 RNA 测序(scRNA-seq),其中我们同时测量数千个基因在数千到数百万个单细胞中的表达水平。这些数据集的巨大规模给其分析带来了重大挑战。
虽然这些数据是高维的,但人们通常认为它们是从一个维度低得多的流形中采样得到的。这催生了所谓的“流形假设”,该假设认为高维数据集可以根据其包含的低维流形结构进行富有成效的分析和理解。这进而催生了“流形学习”,其试图开发算法来寻找这些流形结构。当前的流形学习工具专注于降维,通过生成数据的低维全局表示来工作。这类算法中最著名的例子是主成分分析(PCA),它通过识别一组正交分量来工作,这些分量的线性组合可以捕捉所讨论数据中的最大变化。像 t-SNE 和 UMAP 这样的非线性工具也已成为降维和数据分析可视化的热门选择,特别是在单细胞基因组学研究背景下。
以 S 曲线为例,它是一个典型的二维流形嵌入在三维空间中的例子(图 1A)。这个数据集可以通过简单地展开这个平面轻松地嵌入到二维中。使用默认参数将 UMAP 应用于这个数据集将数据展开到二维,但会在数据中引入一组孔洞或“撕裂”。相比之下,球面(图 1B)也是一个二维流形,但在数学上不可能将球面嵌入到二维中。将 UMAP 等工具应用于球面会产生更扭曲的表示,数据集中会出现非常大的撕裂。这些撕裂是有问题的,因为它们严重破坏了数据的结构:在原始数据集中彼此靠近的点可能会出现在低维表示的完全相反的两边(图 1A 和图 1B)。
图1 学习流形。(A) 3D S 曲线数据集及其真实 2D 嵌入(左)和 UMAP 嵌入(右)。(B) 球形数据集及其 UMAP 嵌入。(C) DeepAtlas 应用于 2D 椭圆形形状的步骤示意图
Hughes等人最近开发了一种量化这种拓扑变形的方法,并利用它证明了大量“流形学习”工具无法生成有效的低维嵌入。作者们发现这一现象既适用于简单的合成数据(如超球体),也适用于单细胞基因组学中的真实数据。这表明,尽管这些工具在可视化方面可能有用,但目前可用的流形学习工具无法有效地从数据中学习流形结构。这部分是由于这些工具专注于生成全局嵌入。流形的数学定义是局部的,但这一点并未被任何目前可用的流形学习工具直接利用。
在实际应用中,当我们面对数据时,可能会提出两个问题。首先,这些数据是否确实是从低维流形中采样得到的?如果是,我们能否生成该流形结构的数学模型?在此,作者们介绍了 DeepAtlas(https://github.com/DeedsLab/DeepAtlas),一个能够有效回答这两个问题的工具。该分析流程的第一步涉及评估数据是否可能源自流形,因为我们很难在数据中不存在流形的情况下学习流形结构。这一步还允许我们确定流形的维度(如果存在)。流程的第二步涉及使用深度神经网络来学习流形本身的模型。通过学习数据的一组“局部图表”来实现这一点,这些图表的集合构成了流形的图谱。
将第一部分流程应用于合成数据表明,DeepAtlas 能够准确估计流形的维度,即使数据的维度相对于采样数据点的数量较高。有趣的是,发现几个真实数据集实际上没有显示出来自流形的证据,包括那些经典用于测试流形学习工具的数据集和 scRNA-seq 数据。然而,其他真实世界的数据集则与来自流形一致,包括经典的 MNIST 手写数字图像测试数据集。对于合成数据和真实数据,DeepAtlas 能够有效地从这些数据中学习可微分的模型。证明DeepAtlas这个模型可以用于生成式方法,通过从数据的局部表示中进行采样,从而在原始流形上生成新的数据点。DeepAtlas这项工作首次尝试直接应用流形的数学定义来研究数据。
参考文献
[1] Serena Hughes, Timothy Hamilton, Tom Kolokotrones, Eric J. Deeds. DeepAtlas: a tool for effective manifold learning. bioRxiv 2025.08.26.672474; doi: https://doi.org/10.1101/2025.08.26.672474
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1502770.html?mobile=1
收藏