博文

GeneCOCOA：利用共表达数据检测单个基因的上下文特异性功能

已有 2109 次阅读 2025-4-21 10:53 |个人分类:科普|系统分类:科普集锦

GeneCOCOA：利用共表达数据检测单个基因的上下文特异性功能

测序技术的进步降低了成本，提高了转录组分析的准确性。这导致从各种各样的实验条件中产生了大量的数据集，其中许多是公开可用的。因此，在关注特定基因或感兴趣的基因产物的研究中，询问公共测序数据已成为越来越重要的一步。通常，这仅限于检测感兴趣的基因是否在给定的数据集中表达，或者基因的表达是否在特定的实验条件下发生变化。然而，这种方法并不能深入了解数据中感兴趣基因的任何潜在功能，也不能提供可能控制基因表达的任何调控机制。

在差异基因表达分析过程中进行的功能富集分析通常依赖于在整个分析过程中衍生的一个或多个基因集的输入（例如差异表达的基因）。然后计算每个基因与本体论、通路和疾病等注释集之间的关联。随后，考虑到输入基因集的大小、与给定术语相关的基因数量以及与适当背景基因集相比的命中率的增加，对这些关联进行了统计分析，以确定是否存在过度表达的术语。这些分析的结果是一个按统计值（如p值、调整后的p值、精确度和召回率）分层的术语列表。这些方法的结果有可能为未来的研究方向和湿实验提供信息。然而，它们无法深入了解单个基因的功能相关性，尤其是在基因缺乏先前功能特征的情况下。

一种可用于检查单个感兴趣基因（GOI）潜在功能的方法是在共表达分析中，根据给定数据集中存在的其他基因的表达来模拟GOI的表达。共表达涉及鉴定显示共同调控模式的基因，因此可能受到类似的基因调控机制（如转录因子）的影响。共表达分析的方法包括基因表达值之间的简单线性回归模型，构建由基因模块组成的加权共表达网络和基于深度学习的方法。基于共表达为单个基因赋予功能和生物学意义需要进一步分析，然而，共表达分析结果的解剖和分层可能具有挑战性。这意味着，在方法之间的转换过程中，对单个基因功能的潜在有趣见解可能会丢失。

旨在确定单个基因功能的方法是可用的，并实施了不同的方法。有些目的是鉴定与某些组织、细胞类型或细胞系相关的基因或遗传变异（例如CONTENT和ContNeXt）。虽然这些方法可用于识别重要的基因上下文关联，但它们并不能预测给定基因的生物学功能。其他方法使用网络属性（例如NetDecoder）或应用共性分析（FIREWORKS）来表征给定背景下的基因-基因关联。这些工具有助于以特定背景的方式识别与GOI显著相关的其他基因，但同样没有将这些结果与生物学意义联系起来。GeneWalk、DAVID和Correlation AnalyzeR是最接近确定单个基因功能的三种工具，因为它们旨在提供特定背景的生物学意义，同时能够专注于单个基因。

GeneWalk接受用户提供的基因输入列表，并组装由这些基因和相关基因本体（GO）术语组成的网络。然后对网络进行随机游走的网络表示学习。通过比较真实网络和基于随机网络中节点相似性的零分布之间的节点相似性，确定给定基因和GO项之间的统计关联。

或者，可以使用DAVID进行单个基因与生物功能之间的关联，该方法以基因列表为输入，返回GO项、蛋白质结构域信息和已知通路，这些信息在与给定基因的关联中使用Fisher精确检验计算具有统计学意义的富集条目。虽然这些方法确实提供了对单个基因推定功能的见解，但这两种方法都没有考虑所提供基因或与所讨论的GO术语相关的其他基因的表达。在这些分析中不将表达视为一个特征可能会导致感兴趣的基因与给定术语相关的基因或基因子集之间失去动态关系。此外，GeneWalk的实现仅限于使用GO术语，不能与其他基因集一起实现，这些基因集可能在特定背景下（如疾病）提供更相关的功能注释。

一种考虑共表达并输出推定基因功能的方法是Correlation AnalyzeR。在这里，加权Pearson相关性归一化基因表达计数之间的兴趣基因和其他基因存在于表达数据计算。然后，根据得到的相关值组装排名基因列表，将其用作基因集富集分析的输入，从而得到理论上与感兴趣基因共表达的统计富集项。然而，作者指出，为了进行稳健的分析，应使用30多个样本和至少4项不同研究的数据集，限制了这种方法的使用范围。

最近，Zehr等人试图探索如何将共表达和功能富集分析结合到一个工作流程中，该工作流程提供了对特定GOI在输入数据提供的给定上下文中的功能的洞察。这种方法将允许使用用户生成的实验数据，在多种实验条件下全面评估GOI的表达模式和推定功能。为此，作者们提出了GeneCOCOA（图1，https://github.com/si-ze/geneCOCOA），这是一个R包，用于识别和排序与用户提供的GOI共表达的功能基因集。GeneCOCOA可以使用来自bulk或单细胞实验的用户提供或公开可用的基因表达数据，并且可以利用几个精心策划的基因注释数据库来计算共表达中的功能富集。

图1 GeneCOCOA工作流程，用于鉴定与感兴趣基因共表达的功能基因集。（A）将基因与推定功能统计关联的策略和相关方法，概括为基因中心（GeneWalk、DAVID）、先验知识（GO、Reactome、MSigDB）和共表达（WGCNA、CemiTool）方法。GeneCOCOA将每种方法的元素整合到一个工作流程中。（B） GeneCOCOA工作流程的示意图，该工作流程将用户提供的功能基因集、感兴趣基因（GOI）和基因表达数据作为输入，以报告与提供的GOI相关的统计排名基因集。这是通过比较RMSE值来实现的，该模型使用来自单个基因集的基因或来自表达数据的随机采样基因来预测GOI的表达。对基因集误差和随机误差进行统计比较，并调整得到p值，从而得到一个功能基因集的输出列表，该列表根据它们与所提供的感兴趣基因的关联强度进行统计排序

结论：

• GeneCOCOA是一种用于鉴定与感兴趣基因显著共表达的功能基因集的组合方法。

• GeneCOCOA可以以高度灵活的方式用于用户提供的或公开可用的转录组分析数据。

• 功能基因集可以由用户提供，也可以从公开可用的数据库中获取，这些数据库包含有关本体论、通路和疾病的信息。

• GeneCOCOA成功地概括了与单基因疾病有关的基因功能特征。

• 与类似方法相比，GeneCOCOA检测到更多与证据相关的基因-疾病关系。

参考文献

[1] Zehr S, Wolf S, Oellerich T, Leisegang MS, Brandes RP, Schulz MH, Warwick T. GeneCOCOA: Detecting context-specific functions of individual genes using co-expression data. PLoS Comput Biol. 2025 Mar 31;21(3):e1012278. doi: 10.1371/journal.pcbi.1012278.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC