博文

从生源到深度建模：miRNA-疾病预测计算方法的全面综述与实验比较

已有 215 次阅读 2026-5-2 21:35 |个人分类:科普|系统分类:科普集锦

从生源到深度建模：miRNA-疾病预测计算方法的全面综述与实验比较

遗传信息通过转录过程从 DNA 传递到信使 RNA（mRNA）。随后，在核糖体-转运RNA 辅因子复合体中，mRNA 根据 DNA 编码的遗传指令进行翻译，从而促进蛋白质合成。除了编码蛋白质的 mRNA 外，细胞还含有大量不编码蛋白质的功能性非编码 RNA（ncRNA）。在更广泛的 ncRNA 体系中，微小 RNA（miRNA）与长非编码 RNA（lncRNA）、环状 RNA（circRNA）、小干扰 RNA（siRNA）等相互作用，形成调控网络结构。这些分子直接参与基因表达的调控。其中，miRNA 因其普遍性和在转录后基因调控中的重要作用而备受关注。

miRNA 是长度为 20-25 个核苷酸（nt）的非编码 RNA（ncRNA），通过与靶标 mRNA 互补配对，在转录后水平上精细调控基因表达，从而抑制翻译或促进 mRNA 降解。miRNA 的成熟过程可概括如下：初级 miRNA（Pri-miRNA）在细胞核中被 Dicer 酶加工成前体 miRNA（Pre-miRNA），在细胞质中被 Dicer 酶切割，最终整合到含有 miRNA 的 RNA 诱导沉默复合体（miRISC）中，该复合体通过碱基配对介导靶标 mRNA 的降解或翻译抑制。miRNA 广泛存在于植物和动物中miRNA 甚至一些病毒，对于几乎每个关键生物过程都至关重要，包括细胞增殖、分化、发育和凋亡。迄今为止，已发现超过 57 000 种人类 miRNA，它们共同在转录后和翻译水平上调控数千个基因的表达。在过去三十年中，miRNA 研究经历了指数级增长并获得了广泛关注。图 1 展示了 1993 年至 2025 年 miRNA 研究中的关键里程碑。

图1 miRNA 研究历程：miRNA 研究中的关键发展和进步、突破以及新兴方向

不幸的是，异常 miRNA 表达的失调可能导致多种疾病，包括癌症、心血管疾病和神经退行性疾病。例如，研究发现急性心肌梗死老年患者血清中 miR-214 表达量很高，可能通过抑制其靶基因（包括 PUMA、PTEN、Bax 和 Caspase-7）的表达来抑制心肌细胞凋亡。此外，miR-5p 在银屑病患者临床血清样本中表达量升高。在脊髓胶质瘤患者中，miR-106a-5p 显著上调。其在脊髓胶质瘤组织中的过表达可能通过靶向 CELF-2 影响细胞增殖、迁移、侵袭和凋亡，从而为未来脊髓胶质瘤的临床治疗提供潜在策略。此外，hsa-miR-503 和 hsa-miR-96 在鳞状细胞肺癌的免疫功能、发病机制和预后中发挥关键作用，作为疾病进展、免疫景观和临床结果的关键决定因素。类似地，miR-34a 已被鉴定为一种潜在的抗癌 miRNA，用于针对骨转移性癌症的基因治疗。这些研究表明，miRNA 在疾病进展、诊断和治疗中起着关键作用。因此，识别潜在的 MDA对于发现新的诊断生物标志物、开发靶向治疗策略以及推进个性化医学至关重要。

尽管传统的湿实验室实验可以准确地验证 MDA，但它们通常既昂贵又耗时。计算方法可以有效地减少实验时间，节省成本和资源。因此，它们是很好的初步验证工具。早在 2010 年，Jiang 等人提出了一种基于网络的计算方法，构建了人类表型组-小 RNA 组网络，以优先排序与疾病相关的 miRNA，并据此推断潜在的 MDA。此外，Luo 等人提出了 BRWH（使用异构网络上的不平衡双随机游走）模型。该模型利用不平衡双随机游走将已知 miRNA 与疾病之间的关联传播到未知的 miRNA 与疾病，从而预测潜在的 MDA。该模型取得了良好的预测结果。然而，基于网络的计算方法仍然难以自动学习非线性高阶关系。最近，提出了一种基于矩阵分解的计算方法，即 SMAP 模型。该方法将相似性信息整合到优化的矩阵分解框架中，以预测潜在的 MDA。尽管基于矩阵分解的计算方法在预测 MDA 方面取得了成功，但它们存在对邻域信息敏感和高度依赖输入数据源的问题。随后，机器学习方法也表现出良好的性能。Chen 等人提出了一种基于正则化最小二乘法（RLS）的方法，采用半监督学习算法来预测 MDA。梯度提升树算法在处理大规模数据集和提高预测精度方面表现出色。例如，KS-CMI 模型结合了去噪自编码器和分类提升算法（CatBoost），通过平衡理论增强特征表示并提高预测鲁棒性。然而，近年来相关数据的快速增长使得传统机器学习算法无法适应复杂多变的数据，且无法自动挖掘高阶特征。

随着深度学习的快速发展，在多组学关联分析（MDA）中捕捉非线性关联的优势至关重要。Liu等人提出了 SMALF，该模型采用堆叠自编码器（SAE）学习 miRNA 和疾病的潜在表示。设计将多种基于相似性的特征整合到综合特征向量中，并使用极端梯度提升（XGBoost）算法进行最终的 MDA 预测。然而，基于非图深度学习的计算方法无法处理图结构数据，并且忽略了样本之间的相关性。最近，由于 MDA主要是本质上的图结构数据，一些基于图卷积网络（GCN）的方法被开发出来应用于该领域并取得了显著成果。例如，Tang等人提出了 MMGCN 模型，该模型采用 GCN 编码器获取在不同相似性视图下 miRNA 和疾病的特征。此外该模型采用多通道注意力机制，自适应地学习不同特征的重要性，从而增强潜在表示以进行关联预测。为了获得具有更好泛化能力的 miRNA 和疾病嵌入，Sheng 等人采用图对比学习来执行 MDA、lncRNA-疾病关联和 lncRNA-miRNA 相互作用的多任务预测。尽管基于图神经网络（GNN）的计算方法近年来取得了良好的预测性能，但该方法的黑盒特性给生物可解释性带来了新的挑战。

总之，已应用多种计算方法来揭示潜在的 MDA。不同的 MDA 识别方法分为五类：基于随机网络的算法（NW-based）、基于矩阵分解的算法（MF-based）、基于机器学习的算法（ML-based）、基于非图深度学习的算法（DL-based）以及基于 GNN 的算法。尽管 GNN 是深度学习的一个分支，但近年来，与传统的非图深度学习方法相比，基于 GNN 的算法在聚合节点信息方面表现出更优越的性能。这主要是因为 MDA本质上具有图结构特征。基于 GNN 的算法可以直接在异构 MDA 图上运行。因此，这些方法单独分类，以便进行更清晰的讨论和总结。综述的整体框架如图 2 所示：(i) miRNA 的生物学机制及其与其他非编码 RNA 的关系；miRNA 研究的详细历史发展。 (ii) 用于预测 MDA 的计算方法的系统研究框架： (a) 多源数据整合； (b) 使用计算方法预测 MDA 并将计算方法分为五类； (c) 交叉验证和评估； (d) 生物验证。 (iii) 然后展示不同类别的比较实验和总结。

图2 综述的整体框架

参考文献

[1] Xie S, Law KLE. From biogenesis to deep modeling: a holistic review of miRNA-disease prediction computational methods with experimental comparison. Brief Bioinform. 2026 Jan 7;27(1):bbaf736. https://doi.org/10.1093/bib/bbaf736

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC