通路影响分析用于差异表达基因的稳健和全面解释
转录组谱分析提供了对细胞状态的全面视角,并为下游研究(生物标志物发现和通路解释)奠定了基础。可靠地识别差异表达基因(DEG)是一个关键但持续存在的挑战领域,传统上依赖于统计阈值,如倍数变化、p值和假发现率(FDR)。然而,最近的批评——尤其是来自Amrhein 等人在《自然》杂志和 Benjamin 等人在《自然·人类行为》杂志中——都挑战了p < 0.05 作为"统计显著性"的阈值,并指出其易受样本量、数据影响质量,以及可重复性问题。
广泛使用的方法,包括 DESeq2、edgeR、limma和其他方法,采用这些统计指标来控制变异性和多重检验。这些方法通常对计数数据分布进行建模(例如,DESeq2 中的负二项分布和 edgeR)或应用方差建模(例如,用于微阵列和 RNA 的 limma使用 voom 转换的序列)。然而,阈值选择通常依赖于任意、用户定义的截止值,例如倍数变化> 2 和 FDR < 0.05。这些标准虽然传统,但可能无法反映生物学背景并且对样本量、重复次数和技术噪声高度敏感。这种缺乏标准化不仅损害了基于差异表达基因(DEG)的研究结果的再现性,还限制了其生物学可解释性下游分析,如通路富集或生物标志物发现。
其他方法,包括无阈值方法,如基因集富集分析(GSEA),基因集富集的参数分析(PAGE),以及通用基因集富集(GAGE), 试图通过评估基因集的变化来绕过任意截断的问题。虽然这些方法对于捕捉全局通路扰动很有价值,但它们不提供具体的差异表达基因集,这对于需要特定基因列表的下游应用(如功能验证)来说是必不可少的。此外,基于网络的差异表达基因方法,如 MLDEG、DEGraph 、pathDESeq和网络传播算法结合了拓扑特征或机器学习模型以提高敏感性,但通常会增加额外的计算复杂层和对网络质量的依赖性,限制了它们在一般转录组研究中的可及性。
最近,Yoon等人介绍了通路影响分数(PIS,图1,https://github.com/littleheroncodes/PIS),这是一个基于生物学的指标,旨在通过最大化总通路水平的扰动信号以优化差异表达基因(DEG)选择。PIS 系统不是依赖固定的统计阈值,而是将 DEG 集合搜索为产生最强累计通路富集的集合,提供一种数据自适应的解决方案,优先考虑生物学一致性而非任意显著性标准。它依赖于在真正生物学反应通常表现为功能相关基因协调变化的原理基础上集合或通路,反映了基因调控网络的进化组织,以确保高效和在不同环境及生理条件下实现稳健的细胞适应。通过利用这一点属性,PIS 能够实现稳健且可重复的基因差异表达(DEG)选择,这种选择在不同数据集上保持稳定噪声水平、重复次数和实验条件。值得注意的是,PIS 框架是为无缝整合到现有的转录组分析流程中,或作为其补充,仅需额外在标准差异表达输出之外进行少数参数调整。虽然这里使用的是批量转录组数据集,PIS 也具有应用于新兴高分辨率测序数据的潜力,例如单细胞和空间转录组学。
图1 使用 MAQC2 数据集对通路影响分数(PIS)进行基准测试。(A) MA 图展示了 MAQC2 数据集中差异基因表达情况。Fold change(倍数变化)≥2.0 和 q 值<0.01 用红色突出显示。经 qRT-PCR 验证的金标准差异表达基因用橙色标记(上调)和青色(下调)。(B) 在 MAQC2 数据集中展示 PIS 峰值。基因根据 DESeq2 的统计值进行排序和分组为 10 个区间。对于每个累积区间,绘制了通路富集分数的总和。红色线表示一个平滑曲线,峰值表示最大化差异表达基因(DEG)的最佳数量通路层面的扰动信号。这种峰值模式是按统计值排序的 DEG 集的典型特征。(C) 使用三种基因评分指标比较上调差异表达基因(DEG)预测性能:Wald 统计量,log₂变化倍数,以及-log₁₀ q 值。呈现了受试者工作特征(ROC)曲线,包括曲线下面积曲线(AUC)值表示预测准确性。针对由八种方法选择的差异表达基因(DEG)的敏感性和特异性。常规阈值和 PIS 也绘制出来以供比较。(D) 顶部 50 个上调(左)和下调(右)通路通过识别确定的富集因子(EF)每种阈值方法。更高的 EF 值表明生物学相关性更强,通路之间的一致性也更高。这张图共同说明了 PIS 不仅与实验验证的差异表达基因(DEG)高度一致,而且增强了通路富集,为差异表达基因(DEG)的选择提供了一种稳健且具有生物学依据的方法
参考文献
[1] Yeogha Yoon, Minji An, Hanbi Lee, Wankyu Kim. Pathway impact analysis (PIS) for robust and comprehensive interpretation of differentially expressed genes (DEGs). bioRxiv 2025.09.08.674792; doi: https://doi.org/10.1101/2025.09.08.674792
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1504699.html?mobile=1
收藏