博文

D-LIM：用于可解释基因互作的神经网络

已有 220 次阅读 2026-4-18 22:23 |个人分类:科普|系统分类:科普集锦

D-LIM：用于可解释基因互作的神经网络

理解基因型到适应性的映射是进化适应、遗传疾病生物医学研究、传染病传播和药物抗性的核心。基因组突变影响某些分子参数，例如蛋白质的稳定性、结合亲和力、动力学速率、表达水平，这些称为表型。反过来，这些参数通过代谢和调控网络相互耦合，最终决定生物体的适应性。适应性指的是生长速率（除非另有说明），因为后者通常被用作衡量一个生物体对其环境适应程度的代理指标。通常，多个表型参数共同贡献于适应性；单个突变的影响取决于其他突变的存在。这种现象称为异位显性，会导致突变-适应性景观高度非线性。基因内突变之间的相互作用通常崎岖且高维，这是由于蛋白质或 RNA 中残基相互作用的协同性质。同样，参与物理相互作用伴侣的突变通常也是崎岖的。相比之下，参与代谢或调控网络的基因之间的突变组合可能由平滑的低维景观控制，因为它们反映了如催化（米氏-门登动力学）或浓度结合曲线等 S 形依赖关系的组合。虽然有可能在特征明确的系统中构建遗传相互作用的生化模型，但这很少发生，因为定性相互作用或参数值是未知的。

对基因型到适应度映射的实验研究是通过称为深度突变扫描的大规模筛选来进行的，这些筛选包括突变基因并测量其产生的适应度。随着 DNA 编辑技术的进步，实验可以产生数百万个以突变函数的适应度测量值。这些最近的进展，特别是基于 CRISPR 技术，现在允许生成针对多个基因的库，在筛选实验期间可以通过下一代测序跟踪突变组合。值得注意的是，包含基因对和更高阶组合的突变及其相应的适应度测量的数据集正变得越来越普遍。

从这些数据集中，基因型-适应性关系目前通过两种不同的方法进行推断。第一种方法是设计一个生化或生物物理模型，该模型将适应性确定性地定义为可测量量（如结合亲和力或催化活性）的函数。例如，在 Kemble 等人的研究中，作者对两个通过代谢途径相互作用的基因进行了突变扫描。他们基于米氏-门登动力学和途径结构推导出了一个模型。这两个基因的酶促活性决定了适应性。由于模型族的选择决定了每个参数的作用，而这些参数直接与基因相关联，因此该模型是可解释的。然而，确定正确的参数形式及其参数估计在计算上是费力的——Kemble 等人需要蒙特卡洛步骤进行参数优化。因此，这种方法仍然难以扩展到更广泛的实验，特别是涉及复杂或特征描述不佳的基因网络的实验。

相比之下，机器学习（ML）模型通过统计方法推断映射关系，直接从基因型-适应性数据中学习非线性依赖关系，而不假设任何特定形式。神经网络（NN）利用数据量的增加，显著提高了预测准确性，特别是在蛋白质的实验突变扫描背景下。事实上，神经网络是通用逼近器，这意味着学习过程可以自主地使用高维内部表示识别基因型与适应性之间的复杂关系，而不是手动选择受限的参数族。此外，通过反向传播算法进行参数优化非常高效。然而，如何解释表示如何影响预测及其与表型的关系尚不清楚。在机器学习中，线性回归模型被认为是可解释性最强的，但它们在预测能力方面有限，特别是在突变相互作用这种非线性的背景下。总而言之，生物化学模型和机器学习模型代表了建模光谱的两端。促使人们寻找既可解释又基于数据的方法。

可解释性是当前机器学习领域普遍面临的挑战，在生物学领域尤为突出。在深度突变扫描实验的背景下，LANTERN 方法将突变的潜在表示约束为加性，从而促进模型参数的解释。具有潜在表示向量指向相同方向的两种突变应具有相似的影响，而向量的幅度则反映了突变的强度。然而，就预测或表型而言，构成坐标的各个维度的具体作用仍不明确。从生物物理学的角度来看，Tareen 等人引入了 MAVE-NN，简化了构建基因型到表型映射的机制模型。在 MAVE-NN 中，用户指定基因型到适应度之间的映射类型——从加性到基于神经网络的映射——并引入潜在表型作为中间层。因此，虽然潜在表型从未被直接测量，但可以将其解释为有效表型。这种方法预设了一个有效表型能够总结所有基因型的综合影响。该方法通过局部使用类似于生化模型的函数形式模型来进一步扩展可解释性。Faure 和 Lehner 也通过采用多个潜在表型发展了这一思路。在另一种方法中，GenNet 引入了一种可解释的神经网络，用于研究基因系统或代谢途径。其架构基于先验生物学知识，神经元连接由基因注释、通路、细胞表达和组织表达定义。然而，这种方法需要关于系统的丰富信息。

总体而言，在基因型-适应性模型中，可解释性的一个核心方面是识别模型的某些变量与生物物理量或表型量，或者更一般地说，能够在不直接测量这些量的情况下推断出关于这些量的某些信息。在大多数机器学习方法中，突变被表示为捕获复杂遗传依赖性的高维向量，但每个维度的生物学意义不明确。

为填补这一空白，Wang等人引入了 D-LIM（直接-潜空间可解释模型，图1，https://github.com/LBiophyEvo/D-LIM-model），这是一种从基因型到适应度数据中学习基因-基因相互作用的模型。它基于这样一种假设，即每个突变独立地决定一个有效表型，并且适应性来自于这些有效表型之间非线性的平滑组合。这种两阶段模型的原理是许多生物过程可以通过某些参数（结合常数、生产速率、表达水平）的平滑连续函数来建模。问题在于这种关系不能在突变到适应性的映射中直接检测到，因为：(i) 突变和中间（未观测）变量之间的关系可能非常崎岖，(ii) 将作用于不同参数的联合突变的影响进行解卷积并不明显。特别是，研究表明即使单峰高斯表型-适应性景观在接近适应性极值时也会导致崎岖的突变到适应性景观。D-LIM 的目的是检测这种关系是否存在，如果存在，则引入与基因相关的中间变量，称为有效表型，以确定突变如何影响有效表型，并自动找到有效表型与适应性之间的平滑关系。

图1 D-LIM 框架概述。A) 基因对 X 和 Y 的数据获取，其中适应性在突变组合中测量。适应性数据结构化为一个矩阵，其中每一对行代表同一遗传背景下两个基因的两个突变，每一对列遵循相同的表示方式。B) 表型独立性。每个维度代表一个独立的基因有效表型φ。因此，在这种受限空间中的突变是独立的（由深色箭头表示）。如果突变不独立地影响表型，它们将同时沿所有维度变化（如灰色箭头所示）。C) D-LIM 架构。D-LIM 对每个基因变异取一个表型值，并通过前馈神经网络处理以预测适应性。D) 受限的最终适应性景观。适应性被映射到受限的表型空间，其中基因变异组合以网格形式组织。E) 有效表型φ的谱初始化。为了初始化表型φ，首先计算面板 A 中突变适应度谱之间的皮尔逊相关系数，以量化突变之间的相似性。然后，根据这个相似性矩阵构建拉普拉斯矩阵，将这些关系编码为图结构。其 Fiedler 向量（与第二小特征值相关的特征向量）提供了一种一维嵌入，作为初始值。这些值在一维空间中捕捉了图的拓扑结构，如右散点图所示，其中突变按φ排序。对 X 和 Y 也应用了相同的步骤

作者们展示了 D-LIM 由于其架构提供了可解释的特征。将它应用于三个突变扫描实验数据集，其中它在适应性预测方面达到了最先进的准确率。在基因网络的情况下，模型确实通过平滑表型-适应性景观的非线性再现了上位性相互作用，但在解释线性范围之外的物理相互作用蛋白之间的上位性时却失败了，这证实了分子相互作用的维度特性。当成功时，D-LIM 对突变进行有效表型的排序，即使对于非单调关系也是如此，识别表型权衡，并从训练数据域外推适应性预测。

参考文献

[1] Wang S, Allauzen A, Nghe P, Opuu V (2026) D-LIM: A neural network for interpretable gene–gene interactions. PLoS Comput Biol 22(3): e1014107. https://doi.org/10.1371/journal.pcbi.1014107

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC