博文

组学数据的单样本网络建模

已有 744 次阅读 2024-1-22 10:12 |个人分类:科普|系统分类:科普集锦

组学数据的单样本网络建模

单个样本的网络建模可以促进生物学上的发现，这些发现超越了分析“聚合”网络时的发现，即在组学数据集中合并所有样本信息的网络。在最新评论文章中，作者们讨论了使用组学数据的单样本网络建模领域的历史、现状和未来方向。

单样本网络推理的历史

生物系统通过分子相互作用、信号通路和遗传反馈回路的复杂网络相互联系和调控。这种复杂性使得网络建模成为理解驱动生物和疾病潜在机制的关键工具。自从引入高通量分析以来，已经开发了许多方法，使用组学数据来模拟生物网络，特别是基因调控和共表达网络。大多数此类方法利用跨多个组学样本的数据来构建代表整个数据集的单个网络。这些“聚合”网络模型极大地促进了我们对健康和疾病的理解。然而，它们不能揭示个体样本水平上网络异质性的内在变化。

与计算生物学的许多其他领域相比，单样本网络推理是一个小众领域，只有少数已建立的方法。然而，这是一个将网络与临床特征或其他类型的元数据联系起来的关键领域，特别是在异质性疾病或人群中，以及由不同群体产生的大规模数据集。第一次尝试提取单个样品的网络信息是通过将样品特定信息分层到现有的网络结构(如蛋白质-蛋白质相互作用网络)来工作的。这些方法通常将基因表达信息与节点联系起来，以获得特定基因或调控因子的样本特异性“活性”评分。另一种流行的方法是选择具有特定样本组学信息的网络边缘或节点，以获得每个样本的“修剪”网络。目前出现了两种主要的计算方法，LIONESS和SSN，它们明确地推断单样本网络。这些方法中的每一种都采用了独特的数学框架来解决通过汇集人口水平信息来推断单个样本网络的共同挑战。

领域的当前状态

LIONESS和SSN都使用留一方法，将单样本网络建模为总体人口网络的线性扰动。如果将样本添加到参考控制总体时，该调控关系对的相关系数显著不同，则SSN将一条边分配给单个“案例”样本中的节点对。结果输出是基于相关性的差分单样本网络。因此，SSN边表示与对照组相比，病例受试者的分子相互作用失调。相反，LIONESS不区分案例和控制样本，并被设计用于聚合网络推理方法的输出。它的基本原理是，一个汇总了整个种群生物信息的聚合网络，可以被建模为单个组成网络的线性组合。基于这个假设，LIONESS生成一个单样本加权网络，其中每条边代表该样本对总体网络的贡献。LIONESS边缘权重解释了个体特有的生物模式以及种群中所有样本共享的生物模式。

LIONESS和SSN通常提供其他单样本网络推理方法使用的核心方法。例如，LIONESS网络已与分子相互作用数据库集成，从癌症数据中重建精细的患者特异性网络。一种重新标度的LIONESS公式被用于解释数据集亚种群中的样本大小失衡。线性回归模型也被用于识别病例样本与参考对照人群的差异调节网络。

除了转录组学数据的广泛应用之外，单样本网络算法已经证明了其在其他组学领域的适用性，包括代谢组学、表观基因组学和微生物组学研究。这些算法的早期应用通常集中在表征个性化的癌症驱动因素和调控相互作用上。随着时间的推移，单样本网络已被应用于癌症、心血管和呼吸系统疾病以及神经发育障碍的研究，并用于研究基因调控的性别特异性差异。这些应用为个体表型的分子相互作用提供了有价值的见解，推动了精准医学领域的发展。

现有方法的优点和注意事项

基于在一组固定的已知网络交互上分层样本特异性信息的网络推断方法有助于识别样本特异性网络属性。然而，这些方法本身不能捕获新的相互作用，而新的相互作用又需要从下游分析中推断出来。相比之下，明确推断单样本网络的方法就不会受到这种限制。他们还可以结合其他相关样本的信息来增加样本量，从而提高统计能力。当对感兴趣的生物学条件可用的样品数量有限时，这可能是有用的。

与差分网络方法相比，单样本网络提供了明显的优势，因为它们可以在没有显式组时进行比较。例如，这可以是识别与连续临床变量相关的网络变化或检测新的亚型。此外，对单样本网络的分析可以纠正数据集中潜在的混杂因素，这可能是由于技术变化(批效应)或已知的临床特征导致网络异质性而产生的。

对明确推断单样本网络的方法的一个警告是，它们是通过从一组背景样本中借用信息来工作的。因此，使用不同背景推断的单样本网络可能会有所不同。因此，仔细考虑在背景中包含哪些样本是很重要的。在处理异构数据集时，这可能特别具有挑战性。在多组之间进行比较网络分析时，通常在背景中包括来自不同组的样本(例如，来自几种疾病亚型的样本)。当目标是在样本的同质子组中表征网络时，最好只包括来自该子组的样本，因为样本之间的差异可能更容易解释。

解释单样本网络边缘权重也可能具有挑战性，因为推断的权重通常不明确地遵循为聚合网络模型获得的权重分布。例如，不清楚“样本特异性相关性”是什么意思，因为从相关性推断出的单样本边缘权重不一定受[- 1,1]的限制。这些不同的分布可能会影响下游网络分析。

最后，与聚合网络相比，单样本网络对输入数据的预处理更敏感，因为使用单个样本中的扰动来估计网络边缘。与随机噪声相比，这使得区分扰动(以及边缘)是真实信号变得具有挑战性，当数据非常稀疏时，这个问题就会加剧。

评估单样本网络的挑战

单样本网络推理的一个特别具有挑战性的方面是，没有明确的标准来系统地评估推断的网络。方法通常通过突出其解决特定方法论问题或生物学问题的能力来区分自己。因此，单样本网络的评估不一致，并且不可避免地使方法受到质疑。

确定一个适当的标准来评估单样本网络的准确性是非常重要的(而且可能是不可能的)。没有一组实验衍生的网络可以用作基准，即使有，它也不适用于所有情况。单样本相关网络的适当基准将不同于单样本调控网络。样本特异性差分网络的标准将不同于捕获差异边和共同边的单样本网络标准。虽然模拟数据可能对评估单样本网络很有吸引力，但它本身是有限的。数据生成模型的特征可以影响协方差模式，从而改变方法的表面性能，从而更好地反映与生成模型假设的一致性，而不是实际的网络精度。

这就引出了一个问题，即比较单样本网络方法的“准确性”与理解它们的相对优势、局限性和潜在的生物学应用有多重要。不幸的是，几乎不可能评估仅仅基于生物学发现的方法，这是定性和开放的解释。更令人困惑的是，许多单样本网络方法通常在数学上高度相关，并且它们的特定方面有时可以在更大的分析管道中互换。因此，确定通过下游网络分析确定的生物学发现如何使用不同的方法是具有挑战性的。总的来说，理解不同方法的区别是至关重要的，不仅在方法上，而且在每个方法最擅长回答的生物学问题方面。

该领域的未来发展方向

目前明确推断样本特异性网络的方法要么是在皮尔逊相关(SSN)的背景下特别推导出来的，要么可以应用于它(LIONESS)。由于它们与相关指标的关系，一个悬而未决的问题是，是否有可能在推断的单样本网络中推导出相关的统计误差或边缘的置信区间。展望未来，开发能够超越两两(相关)测量的其他类型生物网络模型的方法也将是至关重要的。在这个方向上，最近的几种方法使用个体表观遗传或遗传谱来修改初始估计边缘集，从而生成样本特异性基因调控网络。此外，尽管目前的方法已经单独应用于各种类型的组学数据，但需要新的单样本推断方法来同时集成多个组学数据。这可能是一个非常适合使用深度学习来推断生物网络的新兴方法的领域。

最近高分辨率数据类型的扩展，如单细胞和空间组学数据，可能会极大地促进单样本网络建模，并且最近的几种方法已将其重点转向单细胞特异性而不是样本特异性网络。单细胞数据很自然地适用于单个样本的网络建模，例如，可以推断出特定的细胞类型。此外，测量同一细胞中的多组学数据的方法可以识别各种组学数据类型之间的直接联系。基于单细胞数据的网络建模的未来方向应该解决稀疏性、样本量的可变性和异质性以及如何准确定义用于网络建模的细胞类型的挑战。

综上所述，单样本网络建模是一个相对较新的领域，有许多悬而未决的问题，以及未来研究方向的令人兴奋的机会。我们期待着看到这一领域在未来几年的发展，并进一步为基于组学的生物学发现做出贡献。

参考文献

[1] De Marzio M, Glass K, Kuijjer ML. Single-sample network modeling on omics data. BMC Biol. 2023 Dec 29;21(1):296. doi: 10.1186/s12915-023-01783-z.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0