PARE:任何基于距离降维方法来去除混杂因子的框架
主坐标分析(PCoA)、t分布随机邻域嵌入(t-SNE)和均匀流形逼近与投影(UMAP)等降维工具被广泛用于高维数据的探索。这些方法都在欧几里得空间中识别低维嵌入,并保留原始空间中的信息。这些方法已被证明可以揭示复杂的模式,包括单细胞RNA测序(scRNA-seq)数据中的细胞谱系和脑容量数据中的神经发育变化。然而,在目前的形式下,这些方法没有考虑协变量,并且已知会受到诸如批次等混杂因子的很大影响。
研究人员已经开发了几个扩展的降维工具,旨在消除混杂因子的影响。对于主成分分析(PCA),研究者开发了对混杂变异进行调整的PCA。调整后的PCoA (aPCoA)检验主坐标上线性模型的残差,主坐标与指定的混杂变量正交。投影t-SNE在t-SNE优化的每次迭代中对嵌入进行正交,以调整批处理效果。另一种方法通过使用t-SNE基于一个批次构建参考嵌入,然后将其他批次的观测值投影到参考上来解决批次效应。迄今为止,在基于距离的降维方法中对混杂因子的调整需要修改每个框架来解决这个特定的问题。此外,包括UMAP在内的许多方法尚未扩展到解决混淆问题。
最近,Chen等人开发了部分嵌入(partial embedding,PARE,https://github.com/andy1764/PARE)作为一种可推广的框架,用于从任何基于距离的降维方法中去除混杂因子。作者们通过使用协变量调整的aPCoA差异作为降维方法的输入来实现这一点。当原始距离为欧几里得时,可以通过将调整后的主坐标作为输入数据来获得相同的结果。将这些协变量调整后的降维结果称为部分嵌入(PARE)。这些PARE保持了与原始空间的成对距离,同时消除了混杂效应。PARE可以通过广泛的降维方法生成,包括t-SNE、UMAP、拉普拉斯特征映射、扩散图嵌入、LargeVis、TriMap、ForceAtlas2等。具体而言,将PARE框架应用于t-SNE和UMAP,以开发部分t-SNE (p-t-SNE)和部分UMAP (p-UMAP)。
参考文献
[1] Chen AA, Clark K, Dewey BE, et al. PARE: A framework for removal of confounding effects from any distance-based dimension reduction method. PLoS Comput Biol. 2024;20(7):e1012241. doi:10.1371/journal.pcbi.1012241
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1446633.html?mobile=1
收藏