博文

数据丰富时代对集体细胞迁移进行建模：挑战和机遇

已有 2850 次阅读 2025-5-26 09:45 |个人分类:科普|系统分类:科普集锦

数据丰富时代对集体细胞迁移进行建模：挑战和机遇

集体细胞迁移涉及大量细胞作为一个内聚单元的协调运动，在发育、疾病和修复中起着至关重要的作用。这种集体行为是由复杂的细胞-细胞和细胞-环境相互作用驱动的，这使得很难区分主导的驱动机制。数学建模提供了一个理想的平台，可以对集体细胞迁移的不同假设机制进行编码，并梳理其中不同过程的贡献。传统上，集体细胞迁移的数学建模涉及研究人员编写偏微分方程系统，描述细胞密度以及任何生化信号（如化学引诱剂）或底物（如细胞外基质）如何随时间进化。方程中函数形式的选择通常基于描述作用机制的启发式尝试，它们通常遵循该领域的标准惯例。最近，建模者还采用了基于个体的集体细胞迁移描述，将每个细胞建模为离散实体，其位置根据微分方程或一组解释细胞-细胞和细胞-环境相互作用的规则而演变。这些规则再次由用户根据自己的经验和该领域其他人的实践选择。

许多关于集体细胞迁移的跨学科研究试图通过模型预测和实验观察之间的比较来测试和验证数学模型以及其中编码的机制假设。从历史上看，研究人员仅限于模型和数据之间的定性比较，经常使用扰动实验来挑战基于模型的假设。然而，在过去的五年里，常规收集集体细胞迁移的高分辨率时空数据的程度发生了巨大变化。因此，许多研究人员现在试图将他们的数学模型直接校准为定量数据——这使他们能够估计模型参数，量化不同机制对集体迁移的相对贡献，并提供其模型预测数据能力的定量衡量。此外，例如贝叶斯统计方法的使用使研究人员能够量化任何参数估计中的不确定性，从而量化基于模型预测中的不确定度。将模型校准为定量数据还可以实现模型选择过程。在该过程中，可以根据例如它们复制数据的能力、从数据中自信地估计模型参数的程度以及模型复杂性，对编码不同生物假设的数学模型进行定量比较和选择。

图1A是集体细胞入侵示意图，图1B和C说明了在体外伤口愈合试验中，Fisher–KPP方程在模拟集体细胞迁移中的应用。在这里，细胞在培养皿中生长形成融合的单层，然后使用尖头仪器去除部分细胞。当群体重新定殖空缺的划痕区域时，观察到集体细胞入侵。Fisher–KPP方程可以拟合这些数据，在给定这些参数估计值的情况下，Fisher–KPP方程解与实验数据的比较如图1C所示——该模型能够在伤口闭合时提供细胞密度的准确预测。

图1 Fisher–KPP方程的行波解及其在划痕分析中细胞迁移的应用。（A）Fisher–KPP方程的数值解表现出行波行为，波阵面以恒定速度传播。（B）划痕试验示意图，其中细胞单层被损伤并随时间成像，以追踪迁移到伤口区域。（C）实验数据用于Fisher–KPP模型

最近的数据革命使集体细胞迁移的数学建模的另一种方法是直接从数据中学习模型，即数据驱动建模。这些方法的目的是通过利用统计和机器学习工具，直接从时空数据中推断出潜在的机制模型。通过这样做，希望消除传统数学建模方法的固有偏见，这些方法通常依赖启发式和惯例来选择描述不同生物机制的模型结构和功能形式。尽管仍处于起步阶段，但现在有许多不同的方法可用于集体细胞迁移的数据驱动建模。最近，Baker等人撰写论文《Modelling collective cell migration in a data-rich age: challenges and opportunities for data-driven modelling》旨在为读者提供数据驱动建模领域的广泛概述，讨论在集体细胞运动学习模型背景下不同方法的优缺点，以及未来研究的途径。该文专注于学习基于PDE的模型，这是一个我们通常称之为方程学习的过程，重点是了解什么构成了一个好的模型，以及如何处理噪声、量化不确定性，并以计算高效的方式开发模型。

一个好的数据驱动模型不仅能以高定量精度拟合观测数据，还能捕捉系统的基本控制动力学（物理学），而不仅仅是插值可用数据，这样它就可以超越训练它进行有用的定量预测的范围。因此，方程学习的一个主要挑战是在精确拟合数据和保持模型简约性以避免过度拟合之间取得平衡。一个好的模型也应该从机械的角度来解释，这意味着它的术语对应于有意义的物理、化学或生物相互作用。这种可解释性使研究人员能够更深入地了解潜在机制，完善假设，并可能对未经测试的场景中的系统行为做出新的预测。此外，一个好的模型应该具有合理的数学性质。例如，它应该保持浓度和密度的正性，并满足相关的物理定律，如质量或动量守恒。

直接从数据中学习数学模型本质上涉及处理噪声、测量误差和不完整的观测值。选择方程学习方法的一个关键问题是，特定方法需要多少数据来学习模型，以及由此产生的模型对数据及其质量的变化有多稳健。在这里，需要从推断的模型结构和参数估计的可变性两个方面考虑鲁棒性。例如，当涉及到有噪声的数据时，一个重要的问题是，给定的方法是否在微分方程模型中始终产生相同的项，和/或参数估计在数据复制中的变化程度。

最后，在选择方法时，数据驱动方法的计算复杂性是一个关键考虑因素，特别是在处理大规模或高维数据或复杂的数学模型时。影响方法计算复杂性的一个重要因素是需要在学习算法的每个步骤计算模型的数值解，这可能会显著增加计算成本。如果需要数千（甚至数百万）轮的数值积分，从实际角度来看，这种重复的数值积分甚至可能使一种方法在计算上变得难以实现。因此，重要的是分析计算成本如何随数据量而变化，以及是否可以使用某些近似值或替代模型来加速学习，同时保持准确性。开发能够高效处理大型数据集的可扩展算法将是使基于方程学习的方法在现实世界应用中可访问的关键。

在这项工作中，作者们讨论了当今使用的两大类数据驱动建模技术：基于符号回归方法和基于神经微分方程方法。在每种情况下，作者们都简要概述了该方法，它如何在集体细胞入侵的数据驱动建模背景下使用（使用反应扩散模型，如Fisher–KPP模型及其相关模型作为底层数学框架），以及它的优缺点。其目的是在这里只对每种方法的基本原理进行简单的描述，承认许多研究人员自最初的概念以来在改进和扩展它们方面做出了重大贡献。第2节涵盖了基于符号回归方法，而第3节涵盖了与神经微分方程相关方法。作者们在最后总结了数据驱动建模所涉及的挑战，并提出了未来可能研究的途径。

参考文献

[1] Baker R E, Crossley R M, Falco C, et al. Modelling collective cell migration in a data-rich age: challenges and opportunities for data-driven modelling. arXiv preprint arXiv:2504.19974, 2025. https://doi.org/10.48550/arXiv.2504.19974

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC