||
MIRit:复杂疾病miRNA调控网络识别集成框架
微小 RNA(miRNA)是一类平均长度为 22 个核苷酸的小型非编码 RNA,其主要作用是在转录后阶段负向调控基因表达。在生物合成后,它们通常通过与靶基因的 3'非翻译区(3' UTR)相互作用,促进 mRNA 降解和翻译抑制。在过去的几十年里,越来越多的证据表明 miRNA 参与了哺乳动物通路。目前估计,超过60%的人类基因受到 miRNA 的控制。鉴于其广泛的调控活性,miRNA 表达失衡会对细胞活动产生重大影响,其失调与多种疾病相关。例如,肝脏特异性 miRNA miR-122 的下调已被证明会增加肝细胞的增殖和侵袭,进而导致肝细胞癌(HCC)的发生。 miRNA 在疾病发病机制中的另一例证是 miR-21,这是一种致癌 miRNA,在多种癌症的发生和发展中(包括胶质母细胞瘤和胃癌)起着关键作用。鉴于这些考虑,人们越来越关注 miRNA 的研究,旨在表征参与人类疾病的失调miRNA 调控网络。在这种情况下,有多种方法可用于在组学水平上估计 miRNA 丰度,包括微阵列和 RNA-Seq。因此,可以使用与转录组学相同的分析程序来成功确定不同生物条件下的差异表达 miRNA(DE-miRNA)。然而,即使在识别出失调的 miRNA 之后,阐明其生物学后果仍然极其困难。事实上,miRNA 的功能注释有限,阻碍了我们对复杂疾病中 miRNA 驱动机制的理解,这可能是由于 miRNA 靶基因相互作用在不同细胞类型和条件下的模糊性所致。 然而,使用 miRNA-mRNA 多组学分析为探索 miRNA 失调的生物学效应和评估受损 miRNA 的功能影响提供了一种有前景的方法。事实上,通过使用 miRNA 和基因表达水平,我们或许能够量化每个 miRNA 对其靶标表达的影响,并重建可能触发病理状态的发生或加剧的分子网络。
尽管整合 miRNA-mRNA 分析具有优势,但当前方法很少成功且重复性差,限制了研究 miRNA 网络在疾病发病机制中的作用。特别是,miRNA-mRNA 分析受到 miRNA 靶基因选择的严重影响。在这方面,使用不同的预测算法会对研究结果产生巨大影响,从而限制结论的可重复性。此外,用于关联 miRNA 和基因表达的统计方法往往缺乏严谨性和准确性。在这种情况下,最广泛使用的方法是相关性分析,它允许对 miRNA 对基因表达的影响进行统计评估。然而,不正确的实现往往会降低检测有意义相互作用的统计能力。此外,使用相关性方法会大大限制可用于整合分析的数据集的可用性,因为这些方法需要样本匹配的 miRNA 和 mRNA 表达测量,这通常非常罕见。因此,缺乏适用于非配对数据的统计方法构成了整合 miRNA 分析的主要瓶颈。此外,在识别出参与特定条件的失调 miRNA-靶标相互作用后,研究人员可能希望探索这些配对对生物通路的影响拓扑结构,从而确定在感兴趣条件下最受影响的细胞功能。不幸的是,这种整合通路分析往往被忽视,这阻碍了 miRNA-mRNA 分析的解读性。
虽然用于整合 miRNA 分析的最新工具,如 MiRComb 、miRLAB和 anamiR,能够有效评估疾病相关 miRNA 对其靶基因表达水平的影响,但几乎所有方法都存在一些共同缺点。首先,大多数方法使用多个数据库组合来定义 miRNA 靶点,这通常会导致每个 miRNA 报告出不合理的大量相互作用,并导致假阳性率虚高。因此,检索到的海量相互作用使下游分析变得复杂,增加了多重检验的负担,并限制了所报告生物学结果的解释和实验验证。其次,几乎所有工具都仅依赖相关性分析,这对于没有样本匹配测量的数据集并不适用。此外,提供的一些统计方法并不总是适用于 miRNA 和 mRNA 数据集。 例如,在 miRLAB 中用于量化 miRNA 对靶基因表达影响的众多统计方法中,当某个基因的靶向 miRNA 数量多于样本数量时,不推荐使用Lasso 和Elastic-net正则化模型,这种情况在一些中心枢纽基因中可能出现。最后,目前还没有工具能够进行整合通路分析,该分析需要考虑生物通路中 miRNA-基因相互作用的结构。
为了解决所有这些问题并填补这些空白,Ronchi等人开发了MIRit(图1,https://bioconductor.org/packages/MIRit/),这是一个开源的、全面的、一站式 R 框架,涵盖了进行高效且统计严谨的 miRNA-mRNA 整合分析所需的所有步骤。此外,与其他工具相比,MIRit 支持多种物种,并设计用于处理来自微阵列、RNA-Seq、miRNA-Seq、蛋白质组学和单细胞转录组学数据。此外,MIRit 实现了新的统计方法,允许在没有配对样本的情况下分析数据集。
图1 MIRit 流程图。MIRit 使用的流程需要 miRNA 和 mRNA 表达水平作为输入。随后对 miRNA 和基因进行差异表达分析以识别差异表达特征,接着进行基因功能富集以推断生物学过程。此外,评估 miRNA 位点中疾病相关 SNP 的存在。从在线数据库中检索 miRNA 靶基因,并使用不同的方法将 miRNA 靶基因的表达水平与 miRNA 的表达水平整合,用于配对和非配对数据集。最后,MIRit 进行拓扑分析以识别导致生物学通路扰动的miRNA-mRNA调控网络
参考文献
[1] Jacopo Ronchi, Maria Foti. MIRit: an integrative R framework for the identification of impaired miRNA-mRNA regulatory networks in complex diseases. bioRxiv, 2023.11.24.568528; doi: https://doi.org/10.1101/2023.11.24.568528
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-7 06:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社