||
基因调控网络:从相关模型到因果解释
“对单个基因的观察永远无法阐明身体计划或身体部分的总体机制,除非在极其微小且总是部分,如果不是完全虚幻的,蠕虫眼观点的水平上。” - Eric H. Davidson
当 Nusslein-Volhard 和 Wieschaus 首次对果蝇胚胎进行系统性的分节突变筛选时,他们揭示了像身体分节这样的发育过程可以由一小部分基因巧妙地调控。在接下来的几十年里,基因敲除方法不断加深了对驱动组织形成的基因工具箱的理解,从而呼吁建立一个扰动细胞和组织图谱,将基因筛选扩展到其逻辑终点——记录每个基因在每个组织中的作用。
然而,很明显,逐个研究发育基因是不够的:基因并非具有单一角色的固定实体。基因不是因果关系的独立单元;它们相互作用并沟通,形成网络。正是通过这些网络的动态变化,而非通过单个基因,发育形式才得以显现。
在过去半个世纪里,基因调控网络(GRN)的概念已成为发育生物学研究的核心。广义而言,GRN 是一组协同作用的分子遗传调控因子系统,它们共同驱动特定的细胞结果。GRN 的基本形式是一组作用于其他基因顺式调控元件的转录因子(TF)。从根本上说,GRN 概念描述了调控基因如何协同工作以控制细胞功能和组织形态发生,为基因型到表型的动态映射提供了依据。这些整体性描述可以解释单个基因无法产生的行为,例如振荡、条纹和开关式反应。
GRN 的原始概念本质上具有因果性,通过在基因组上进行迭代的实验干预来构建。然而,随着全基因组测序技术的进步揭示了发育 GRN 的规模和复杂性——即数十种转录因子结合位点遍布基因组——通过实验干预构建 GRN 的挑战变得更加明显。这一障碍促进了“统计”GRN 模型的兴起,这类模型旨在从数据中的统计模式中推断遗传关系,例如基因在细胞或样本间的共变异性。将焦点从实验干预转向统计推断,导致了能够更好地处理发育复杂性的方法,但这使该领域偏离了寻求对 GRN 如何从基因型映射到表型的机制性理解。
在当前状态下,发育遗传学的两种模式具有相反的优缺点:经典的单基因敲除提供了遗传功能的强因果证据,但忽略了发育系统的相互关联的现实;相比之下,基于基因调控网络(GRN)的方法捕捉了这一重要背景,但越来越多地只提供相关性证据且解释力有限。在最近观点文章中,Maizels和Briscoe主张回归将 GRN 视为机制性解释的视角。他们首先概述了与基因组数据集相关的计算 GRN 模型的当前挑战。为了克服这些挑战,同时仍然采用捕捉 GRN 完整复杂性的大数据方法,随后概述了如何潜在地将这些高维数据集提炼为清晰的解释。首先,提出因果表示学习技术可以提供基因调控的描述,是低维的,并且具有内在的机制性。其次,考虑如何利用现有的细胞和进化生物学知识,通过表征模型确保学习到有意义的生物学信息。第三,探索通过工程化合成 GRN 和产生顺式调控扰动来创造新数据的实验机会,这些扰动扩展了我们能够研究的调控系统空间。最后,讨论如何通过生物学机器学习中的先前成功来指导工作。通过综合考虑这些机会,可以创建基因调控模型,解释复杂分子网络如何涌现出生物体形态和功能的优雅。
GRN 模型的不足
传统上,GRN 模型的构建是一个通过系统性地识别调控基因和元件、绘制表达模式以及通过遗传扰动建立调控相互作用的过程(图 1a,b)。高通量测序技术的出现催生了 GRN 推断算法,通过捕捉许多样本(或许多单个细胞)之间基因的相关模式,加速了这一过程(图 1c),从而避免了分步重建调控连接的需要(图 1d)。

图1 经典与数据驱动GRN构建。a, 构建一个机制基因调控网络(GRN)模型的经典流程。该工作流程通常是高度迭代和实验性的,首先识别相关基因,然后通过实验测试基因之间的关系。b, 一个机制GRN模型的示例:通过诱导或抑制相互作用(分别用箭头和横杠表示)进行基因调控;基因在功能上组织成模块,这些模块负责控制生物表型。c, 与b部分相同的网络,但表示为统计GRN,相互作用用箭头表示。d, 统计GRN推断的工作流程:收集数据,并根据基因之间的统计关系构建假设网络。被认为间接的边会被修剪,并且可以结合其他类型的数据进行训练或验证。ATAC-seq,转座酶可及染色质测序测定;ChIP-seq,染色质免疫沉淀后测序;CRE,顺式调控元件;RNAi,RNA干扰;scRNA-seq,单细胞RNA测序;TF,转录因子
早期的 GENIE3和 MRNET 等方法是为微阵列或批量 RNA 测序数据设计的,它们使用合成数据集或简单的细菌数据集进行基准测试,这些数据集中已知真实的网络结构。这些方法的性能通过与这些真实情况进行比较来量化,但它们在解决实际生物学问题上的应用有限。随着单细胞 RNA 测序的出现,该技术揭示了基因调控网络(GRN)的真实动态性、随机性和异质性,随之而来的是一系列新方法,这些方法应用贝叶斯建模和动力系统理论的技巧,有时还整合了伪时间或 RNA 速度信息。这些方法在生物学应用中更为广泛,例如通过识别似乎参与疾病状态的基因。然而,基因调控网络推断工具的独立基准测试研究揭示了普遍的较差性能,这些方法的表现往往不比简单的基线或随机猜测更好。事实上,最近的一项研究表明,即使具有单细胞分辨率,仅基因表达数据也不足以控制基因调控网络推断中的假发现。
多组学方法的出现,能够同时测量基因表达和染色质可及性,带来了令人兴奋的改进。SCENIC+、Dictysand、CellOracle 等方法利用多模态单细胞数据来构建调控网络,已被用于识别关键转录因子和重要的增强子区域。在某些情况下,它们被用于预测干扰已深入研究分化驱动基因的效果,或发现新的重要细胞命运转录因子。然而,尽管多模态具有潜力,这些数据给建模带来了更多问题。从染色质可及性推断调控网络需要针对每个染色质区域进行两项额外的推断任务:推断哪个转录因子与之结合,以及推断它调控哪个下游基因。仅凭序列预测转录因子结合并不直接,因为结合基序可能高度退化(例如,一个转录因子可以结合多种序列,而一个基序可能被多个转录因子结合)。此外,一个增强子可能与它调控的基因相距数十到数百个碱基对。也许因此,最近的独立基准测试揭示了多模态 GRN 推理方法鲁棒性有限,对用户提供的参数敏感,并且在基于扰动的因果预测中表现不佳。
GRN建模的固有挑战
GRN 模型的基本形式是一个网络图,其中每个节点是一个基因,每条边是两个基因之间的相互作用。GRN 推理的挑战从这些图结构的本质中显而易见:如果相互作用是方向性的且包含自相互作用,那么 n 个基因的网络中可能的相互作用数量是 n2,可能的网络拓扑数量是 2n2。一个包含十个基因的网络有 100 种可能的相互作用和超过 1030 种可能的拓扑结构。系统地删除网络中的每个基因只能产生 11 种观测条件(10 种敲除和一种野生型),但需要学习 100 个相互作用参数。如果在实验中测试了这 100 种相互作用,并且对每种相互作用估计有 95%的置信度,这个结果仍然只给出 0.6%的置信度来推断整个网络结构。更糟糕的是,基因调控网络(GRN)是动态过程,具有时间依赖的相互作用和反馈回路,这意味着任何静态的网络表示(例如,传统的节点和边图)可能无法捕捉到网络的行为。
系统生物学和动态建模的理论研究揭示,在构建部分观测到的复杂系统模型(如基因调控网络)时面临诸多挑战。数学模型可能存在结构非识别性现象,即不同的模型参数集会产生相同输出,导致无法确定“正确”的参数解。一个相关但不同的现象是“粗略模型”,即模型中某些参数的变化可达数个数量级,却不会影响模型的输出(图 2c)。
这些现象与一个更普遍的问题相关,即“动态等价性”,其中不同的模型能产生等效的动力学,使得识别正确模型结构的任务变得难以处理。研究表明,许多不同的基因调控网络(GRN)结构能够产生相同的模式行为(图 2a)。类似地,单个 GRN 结构的轻微参数变化可以创造出非常不同的模型行为(图 2b)。人们不能期望 GRN 内部遗传相互作用的结构与 GRN 整体行为之间存在一一对应的关系。随着模型中参数数量的增加,这些问题会变得更加严重。

图2 GRN建模的挑战。a, 不同的基因调控网络(GRN)结构(三节点网络)可以产生相同的表达模式和组织表型(通过时间和空间表示的表达值方框)。b, 相反地,相同的GRN结构可以根据其参数化(基因-基因相互作用的强度)、环境(边界条件)和初始条件产生不同的模式。c, ‘粗略模型’的挑战。顶部:在这些情况下,模型对某些参数的变化反应非常敏感(刚参数),而对其他参数几乎不反应(粗略参数)。底部:在参数空间中,粗略参数可以被视为模型输出不变的方向;等高线图保持不变(在这个例子中,从左下到右上)
即使是一个精确的 GRN 图模型也不会提供一个完整、客观的基因调控现实描述。在这些模型中忽略了众多方面——从时空动力学到表观遗传调控再到转录因子协同作用,具体取决于模型。这些方面是故意被忽略的;它们被抽象化,假设它们将通过模型的参数得到充分捕捉。这种抽象是必要的:它使系统变得易于分析。
理解这种简化的行为使我们能够提出一个问题:我们选择抽象层次是否捕捉了我们希望研究的生物学现象。选择抽象分子细节并以遗传相互作用层次表示基因调控网络是基于这样一种假设,即基因是细胞系统中因果性的基本单元。然而,生物学功能可以是“涌现”的,它源于基因调控网络系统的动力学和全局结构。振荡、开关行为和图灵模式是涌现特性的例子,这些特性无法从单个基因中显现出来。
没有任何理由说明 GRN(基因调控网络)的涌现特性不能通过一个明确且详细的模型来描述网络中每个遗传成分。然而,这些明确的表达方式可能无法提供对这些复杂系统的最信息量丰富的描述。了解每个个体交互可能并不会比完全理解氨基酸结构更能解释蛋白质的折叠,同样也无法清晰地解释 GRN(基因调控网络)的细胞功能。事实上,鉴于构建 GRN(基因调控网络)模型所面临的明显挑战,值得考虑的是,是否通过抽象遗传交互的细节将有助于我们更多地了解 GRN(基因调控网络)在细胞中执行的功能。
GRN(基因调控网络)的“涌现特性”中可能捕捉到什么样的分子组织结构?它可能简单到只是两个基因之间活动量的比率,而不是基因本身的活动量(例如,红系-髓系命运决定依赖于 GATA1 和 PU.1 之间的化学计量平衡)。其他涌现属性或机制的例子可能包括:协同诱导以产生特定表型的许多共表达基因(例如黑色素细胞中的色素基因模块);相关或重复的组件集(例如转导音速 Hedgehog 信号的 Gli 蛋白的不同种类,或 α-珠蛋白超级增强子中协同作用的增强子);虽然分子不同(例如 DNA 序列和蛋白质),但共同作用以驱动特定细胞水平表型的组件(例如果蝇中由 even-skipped stripe 2 系统驱动的锐利、位置特异性的表达条纹,或病毒感染中整合 NF-κB 和 IRF 信号的干扰素-β增强子体);或在一个更广泛的转录因子网络中的子电路,该电路负责特定表型(例如驱动腹侧脊髓模式形成的 Pax6、Olig2、Nkx2-2 和 Irx3 的四基因网络)。
在每个例子中,分子成分形成一个更大的功能单元,以至于我们可以模拟功能单元的行为并抽象出分子细节。这种粗粒度方法可以提供更稳健的模型,揭示新的生物学机制。它将提供一种多视角的方法来研究多尺度生物系统,针对不同问题采用不同的抽象层次。挑战在于如何以灵活、通用的方式做到这一点,以便单一建模方法适用于上述所有示例。
表示解决方案
跨不同粒度级别的建模挑战已在各种科学背景下得到解决。例如,在化学中,粗粒度建模用于生成分子模拟,这些模拟会抽象掉原子信息,将粒子替换为仅保留分子或大分子级别相关细节的“伪粒子”。类似地,AlphaFold2将氨基酸链抽象为“三角气体”,仅保留建模全局蛋白质结构所需的几何信息。
然而,粗粒度分析以关注涌现特性所能做的远不止去除无关细节。在研究信号处理系统时,更高层次的分析可以揭示更广泛的设计原则和功能结构。在神经科学中,马尔的分析层次提出了信息处理系统可以理解的三个层次。最高层次是“计算”层次,它描述了系统解决的问题:目标、约束和成功标准。接下来是“算法”或“表征”层次,它描述了系统如何实现其目标:如何处理输入、构建有用表征,并使用这些表征来创建输出。最低层次是“实现”层次,它描述了系统的物理实现。将这些分析层次应用于收音机,我们可能会说收音机的计算层次是将音频节目传递给听众。实现层次将涉及天线、电子设备、扬声器、按钮、电源等等。将这些组件连接起来的是算法或表示层面,它可能描述了收音机如何通过带通滤波选择特定频率,如何通过频率辨别读取该信号,然后将该信号处理成数据发送给扬声器。计算层面描述了为何会使用收音机,实现层面描述了收音机由什么组成,但要理解收音机的工作原理,需要理解表示层面。
这个框架同样可以应用于 GRN(基因调控网络)执行的信号处理:首先,细胞层面、组织层面或生物体层面的描述,说明 GRN 控制的过程、它驱动的表型以及它发挥作用的背景;其次,分子层面,描述构建 GRN 的蛋白质、顺式调控元件和表观遗传成分;最后,为了连接前两者,表示层面,描述这些不同组件如何组织,输入信号如何映射到输出表达程序,以及这种输入-输出映射如何将分子组件转化为生物体功能(图 3a)。

图3 代表性描述基因调控网络(GRN)。a, 信息处理描述:Marr的分析层次可以应用于基因调控网络(GRN)的研究。实现层次捕捉系统的物理实现,在GRN的实例中,是介导遗传相互作用的转录因子和增强子的明确描述。在此层次之上,代表性层次描述了这个物理实现如何解释信号(信号1和信号2)并实现系统的目标,这里表现为连接抽象细胞类型因子的逻辑门。最后,计算层次描述了正在执行的计算过程,在这个实例中,是解码输入信号以形成条纹组织模式。b, 细胞信号解释描述:从细胞的角度来看,GRN可以被认为是将信号动力学作为输入并输出细胞类型比例的过程。在信号解释层次上构建机制模型可以描述GRN的细胞功能,而无需明确建模潜在的遗传相互作用。c, 进化核心描述:GRN由‘插件’组成,它们是可重用的模块,例如提供输入的信号通路;‘核心’包含GRN的核心功能逻辑;以及‘分化电池’负责执行GRN的下游后果。这些模块的不同功能反映在其进化动力学中:核心由于对组织形成功能至关重要而在物种间高度保守(这里表现为跨物种的不变的蓝色网络)。插件表现出更高的可变性,特别是在它们在生物体组织中部署的上下文中(这里表现为不同模块的大小和强度的变化)。分化电池表现出最高水平的可变性;它们不反馈到GRN中,因此可以自由进化和适应以提供物种特定的输出。因此,捕捉GRN组分的进化动力学可以提供关于组分在网络中执行的功能角色的信息
为了构建这一表征层,理解分子组件的组织方式至关重要。在这方面,基因调控网络(GRNs)已被证明具有结构和组织:任务特定的子电路提供了一种模块化形式。这些子电路以分层方式组织,反映了基因调控网络的进化和功能结构,而发育过程中亚稳态细胞状态的顺序进展则在特定细胞状态的子电路之间创造了另一种层次结构。这种层次结构和模块化以功能方式存在,并与基因调控网络如何驱动细胞决策相联系,这表明基因调控网络架构是可简化和可分解的。将基因分组为模块并将细胞状态结构化为层次自然地提供了从遗传到细胞功能尺度的桥梁。
接下来是关于系统如何运作的问题。在分子层面,行为就是组件随时间的动态变化,或许还包括组件之间的相互作用。然而,GRN 行为的系统性、代表性概念必须将系统的输入映射到输出。基于输入,最简单的模型是什么能够重现输出?组件的活动如何与这种输入-输出映射相关联?
第三个问题(与调控网络比收音机更相关)涉及系统是如何演化的。在整个进化过程中,中性甚至轻微有害的突变会累积,而顺式调控序列在不同物种间差异很大,但影响调控网络表征行为(从而影响其计算功能)的突变更有可能产生负向的适应性效应。许多发育调控网络围绕古老的、稳定的转录因子核心(称为“内核”或“ChINs”)构建,这些内核驱动组织特异性的发育程序。输入这些内核的信号输入模块(称为“插件”或“I/O 开关”),在不同物种间表现出更大的变异,尽管它们常常在不同生物体内的不同情境中重复出现。响应内核活动的“分化电池”,是下游效应基因,它们执行网络的输出而不反馈至调控系统。这些基因在不同物种间表现出最高的变异,因为它们不受下游调控逻辑的约束,可以进化以执行物种特异性的组织“性状状态”。 因此,尽管 GRN(基因调控网络)的组成部分在不同物种间可能存在差异,但 GRN 系统的整体逻辑可以保持保守,从而使 GRN 成为同源性的分子和机制基础。人类的手和鸟的翅膀具有不同的形态和功能;正是它们同源的 GRN 核心反映了它们共同的进化起源。
就像蛋白质中残基的进化动态可以提供结构信息一样,遗传成分的进化动态可以描述它们在 GRN 更广泛的功能背景中的作用。在进化过程中,GRN 电路可以被适应到新的发育背景中,而发育系统通过不同的网络配置漂移以产生等效的输出,在重新连接的同时保持整体功能。引导这种漂移过程的约束条件,以及它所创造的关联模式,可以为建模发育过程中 GRN 的结构和功能提供有价值的先验信息。
采用表征方法对基因调控系统进行建模有助于减少模型的解空间,但其益处可能更为根本。该方法从询问“基因调控网络由什么构成?”或“基因调控网络的结构是什么?”转变为询问“基因调控网络如何将输入映射到输出,以及这是如何实现细胞的更广泛功能的?”通过这种方式,该方法可以转向设计原则、细胞功能和进化动态,将基因调控网络结构的研究与生物学目的和起源的基本问题联系起来。
低维解决方案
在单细胞基因组学等领域,使用抽象表征来可视化生物系统已是常见做法。主成分分析、统一流形逼近和投影以及 t 分布等降维方法在随机邻域嵌入将成千上万的变量和观测值压缩成更易于理解的二维图示。降维也是机器学习流程中统计任务(如多模态数据整合、批次校正和扰动预测)的常见步骤。
尽管低维可视化可能会给分析引入扭曲,但这些方法的动机原则是,描述生物系统所需变量的数量远少于可测量的特征数量。换句话说,生物学存在于比可观测特征完整维度(生物学之外被称为“流形假设”)更低的维度空间中。生物特征是相关且相互依赖的,因为系统被限制在比观测变量更少的自由度内。这种现象是组织化生物系统的必要特征:流形假设仅仅意味着组织性的存在。
生物学中的低维表示能够捕捉由组件间相互作用产生的生物系统中的相关性和模式。因此,将这些机制模型构建到这些表示中,可以学习这些相关性和模式生成的方式。对于单细胞数据,这种更注重机制的降维形式的基本实现已经存在。这类案例包括描述基因模块的算法(这些模块捕获基因间的相关性)、能够捕获细胞状态粗粒度模式的“元细胞”,以及伪时间和轨迹分析工具(这些工具可以模拟细胞分化的路径,从而解释数据集中观察到的细胞类型模式)。作为机制降维的另一个例子,因果表征学习方法旨在将复杂表型分解为不同的生物过程,并从数据中学习因果关系。这些方法已应用于多种数据集,包括模拟和真实的单细胞基因组数据,并有望构建基于因果发现理论、更具可解释性和泛化能力的复杂生物系统模型。迄今为止,这些方法主要应用于扰动预测问题:学习遗传和化学干预对细胞的影响的因果效应。
未来工作应用这些方法可能为基因调控系统如何驱动发育过程中的细胞级和组织级结果提供机制性表征。此类模型将试图抽象分子细节,将此类复杂性转移到神经网络的抽象参数上,使模型的有意义参数能够学习连接或驱动特定细胞表型的较少潜在因果因素(图 4)。这里的挑战在于约束模型,使其学习的内容对问题有意义。例如,可以强制潜在变量映射到特定基因本体术语的基因,或特定染色体,或使映射通过转录的动态模型。模型参数可以定义以捕获进化序列数据的观察动态,表示特定扰动或信号条件的影响,并捕获细胞特性,如增殖率或细胞周期阶段,或者可以设计以捕获特定的 GRN 子电路或基序。约束决定了模型学习的内容。如果进化,细胞功能或生物体应用GRN的构建并不决定其形式或结构,将这些细节构建到我们的模型中可以减少庞大的解空间。在表示学习框架中这样做可以提供“更高层次”的约束,使粗粒度模型能够从信号中抽象出噪声。

图4 向机制抽象表示发展。a, 在主成分分析(PCA)中,每个投影数据点是原始数据点通过变换矩阵C的线性变换。因此,每个成分可以描述为原始数据集中变量的线性组合(例如,RNA测序数据中的基因)。b, 自编码器、统一流形近似和投影或t分布随机邻域嵌入等降维方法,将这一思想从线性映射推广到非线性映射,其中每个数据点通过非线性函数映射到潜在表示(使用自编码器的术语)。因此,每个潜在变量可以描述为原始数据集中变量(基因)的非线性函数。c, 一种机制适应,其中潜在表示由一个机制模型(fmech)构建,该模型捕获可以解释数据点动态(例如,测序细胞)的潜在因素之间的因果关系。这个机制模型可以是一个描述细胞在细胞状态之间转换的时间依赖性进展的动力系统。同时,数据变量(基因)通过一个受生物约束(fbio)制约的函数映射到潜在变量,确保映射具有生物学意义。潜在表示的结构和从变量到潜在因素的映射是相互依存的,但不等价(与PCA一样)。机制模型可以捕获驱动细胞行为的因果关系,而潜在变量映射学习基因如何连接到这些因果关系
实验解决方案
构建对基因调控功能的宏观理解可能并不需要绘制出网络中的每个分子组分。然而,正如动态等价性挑战意味着许多不同的模型参数化可以产生相同的动力学一样,许多不同的分子系统也可能产生等效的机制。要在不同细胞类型、组织、生物体和物种中,通过测量分子组分来建模基因调控,并以稳健和可推广的方式实现,需要理解决定基因调控功能的分子“规则”。基因调控模型的可能解决方案集涵盖了系统可能的分子实例空间,因此为了约束 GRN 模型解决方案空间,我们必须了解在分子层面上什么可以发生,什么不可以发生。
例如,考虑学习“顺式调控密码”这一挑战,它将增强子的序列映射到其功能。无偏方法面临一个难以处理的巨大解空间:可能的 200 碱基对序列数量比宇宙中的原子数量还要多。定义生物学原理和设计约束将这个空间缩小到生物学上合理的机制范围。就像了解语言结构,如音节和音素,有助于识别语言中的有效词汇一样。理解组织基因调控相互作用的分子原理,提供了一个框架将基本物理单位(DNA 碱基和转录因子)与其更广泛的功能意义联系起来(图 5a)。
“大数据”方法,如单细胞基因组学,对于描述不同情境下的基因调控模式至关重要。然而,理解基因调控需要超越对这些观察的目录和相关性分析。重要的是还要捕捉不同调控层级的相互连接方式。
单个调控层可能会给人留下机制混乱或噪声的印象:转录因子结合基序是冗余的,而增强子则常常是多余的。转录因子似乎在基因组中结合数千个位点,通常以成员可互换的复合物形式结合,有时还会与其他它们也直接拮抗的转录因子结合。其他形式的调控,如组蛋白修饰、DNA 甲基化和非编码 RNA,似乎也表现出依赖于上下文的函数。这一观察结果导致一种印象,即存在极端的、几乎无限制的灵活性,从中涌现出显著的鲁棒性和精确性。
鲁棒性可能通过调控层之间的相互作用来实现。一层中的变化可能与另一层中的变化耦合、互补或对抗,从而产生一种“涌现刚性”(图 5b)。例如,一组观察结果可能表明一个基因同时受远端和近端增强子的调控,以至于这些调控元件的基因组距离不能预测其相对活性。另一组观察结果可能发现该基因包含在一个在不同细胞类型之间被重塑的 3D 拓扑结构中。整合这些观察结果可能得出这样的发现:增强子的 3D 组织和基因组位置共同构成了一个预测的细胞类型特异性增强子活性。或者,一种检测可能记录 TF 结合基序的序列变异,而另一种检测可能显示 TF 诱导的靶标表达并非特定于单一细胞类型。综合这些发现,可能形成一种剂量响应 TF 结合模型,其中不同亲和力的基序驱动不同细胞类型程序的转录(正如先前对 Sox2 的研究所显示的那样)。仅研究一层调控可能无法提供机制层面的理解:基因调控的顺式调控密码仅从 DNA 序列或 TF 活性的角度观察时,可能只是一种模糊的概念;而研究不同层级之间的关系可能使某种密码形式更加清晰地显现。

图5 建立调控基因调控网络(GRN)的分子原理。a, 英语的结构可以帮助在确定一个字母序列是否是有效单词时约束解空间:‘protein’和‘pertino’都遵循有效的语音规则,而序列‘rnpetoi’包含无效的音位组合‘rnp’,因此可以被排除。类似地,理解分子水平上允许的配置结构可以帮助约束建模基因调控网络(GRN)的解空间(这里以转录因子复合物在基因启动子处形成为例)。b, 关系可以从看似非预测或灵活的变量之间的相互作用中产生一种‘涌现的刚性’:这里,变量1和变量2都与输入变量没有良好的相关性;然而,这两个变量的乘积形成了一个清晰的线性关系。c, 生物机制(例如,顺式调控增强子活性)可以通过两个过程产生。顶部:不同的增强子活性或亲和力可以在基因之间以及在不同环境中创建剂量控制,从而在不同环境中产生功能上不同的输出。底部:不同的增强子活性或亲和力可以作为对进化事件(例如,基因的复制)的适应而产生。在这种情况下,变异不会产生功能差异,但它补偿了之前的进化事件
将一层中的扰动与另一层的测量联系起来的多模态实验设计将有助于解析顺式调控密码。此类实验设计可能包括在测量 Hi-C 染色质构象的同时工程化序列变异,测量 TF 过表达引起的染色质可及性变化,或在组蛋白密码扰动下记录增强子活性。综合来看,通过实验将调控过程联系起来,可能揭示基因调控的多个方面如何协同作用来约束细胞行为。
然而,重要的是,并非所有调控变异都具有功能性。变异可能提供功能优势(例如,结合基序的退化可能允许转录因子在不同环境中调节其效应强度),但也可能通过进化偶然发生。例如,转录因子基因的复制可能导致顺式调控序列发生进化变化,从而容纳两个冗余的调控因子,而不是去除复制的基因(图 5c)。同样,变异可能由突变和重组的随机过程驱动,这些过程产生的选择压力不足以通过进化被消除。
为了测试 GRN(基因调控网络)的结构如何映射到其功能,我们需要亲自重新排列这些网络的结构。通过改变细胞中顺式调控元件的组成和组合,我们可以开始改变基因之间相互作用的力量、极性或存在,从而对不同的网络结构如何产生各种表型进行实验探索。在这个方向上的工作正在持续进行:高通量增强子诱变、人类基因组和增强子景观的工程化重排、高通量增强子敲除和转录因子诱导筛选就是这一方向的例子。与此同时,设计具有特定调控功能的顺式调控序列的方法正在迅速成熟,包括能够同时测试数千个 DNA 序列的细胞类型特异性调控活性的增强子筛选技术,对结构重组如何改变增强子功能的详细分析,能够测量经过彻底改变的调控区域的功能读出的饱和基因组编辑方法,以及用于从头生成细胞类型特异性和功能特异性增强子序列的机器学习方法。
这些发展指向合成基因调控工程的未来,其中顺式调控序列和转录因子可以被编辑或引入,以产生对 GRN 结构(从而功能)的靶向改变。这反过来又可能创造出设计完全合成 GRN 作为研究对象的可能性,基于现有合成生物学的工作,这些工作在哺乳动物细胞中创建了可编程蛋白电路和蛋白级神经网络,或在细菌中创建了核酸计算设备,或在酵母中创建了基因逻辑电路。这些努力可以为构建和基准测试 GRN 建模框架提供金标准真实系统,但更广泛地说,将开辟一个远超自然发生系统范围的 GRN 结构空间。
上述实验进展从概述分子规则和网络中调节层之间的连接,到重新排列、重新设计和最终构建新的基因调控系统。这条途径提供了构建与我们的数据收集能力和所研究系统的复杂性相匹配的扰动框架的机会。对于理论家来说,它提供了一个特别诱人的前景:GRN 的动力学在一定程度上被写入基因组序列中。通过基因组工程编辑 GRN,因此为因果发现提供了一个新的前景,即我们可以系统地改变我们希望理解系统的因果交互结构。
这个机会让人联想到最近提出的一种理解顺式调控 DNA 密码的策略。这种策略建议我们应该“展示基因组”:自然观察到的调控序列的总和仅占所有可能序列空间的一小部分,因此要理解顺式调控序列,我们必须在更大规模的合成序列库上训练模型,超越自然界中观察到的范围。类似的论点也适用于基因调控网络(GRN):可能网络结构的总空间远大于生物系统中观察到的范围。通过构建新的合成系统并重新设计现有系统的结构,我们可以比目前更深入、更广泛地探索 GRN。
机器学习的作用
生物技术的快速发展,从基因组技术到计算方法,极大地激发了我们对基因调控机制和细胞功能理解的热情。这种势头促使一些人呼吁构建“虚拟细胞”和基础模型,这些模型提供“细胞生物学的通用表示”。
这一兴奋的驱动力之一是 AlphaFold 的成功,它可以说是第一个真正意义上的生物基础模型。为基因调控系统创建一个可比较的模型需要将尺度从分子层面转移到细胞层面。要理解这种转变所面临的挑战,就必须考虑这些背景之间的差异:晶体结构预测是一个静态且明确定义的难题。它受益于基准真理和稳健的成功指标。此外,蛋白质数据库(PDB)仍然是构建过的最干净、最一致的生物数据集之一。蛋白质表现出结构上的“退化性”,即结构中包含常见重复的基序,如α-螺旋和β-折叠,这使得结构预测的挑战变得相当容易应对。
相比之下,“细胞功能”是一个依赖于上下文的概念,没有客观的定义,而“细胞状态”只能部分被观察到。单细胞测序数据是嘈杂、稀疏且存在批次效应的,这意味着收集的数据库需要大量的数据处理和转换才能整合。与蛋白质结构不同,细胞决策是动态且依赖于上下文的,因此看似相同的细胞可能由于未观察到的差异(例如克隆动力学、细胞培养条件的差异以及基因表达的随机性)表现出不同的行为。经过缩放和处理转化为原子坐标,这些坐标随后成为模型的输入。这一过程涉及生物学知识的整合、专业算法的应用以及人工监督,以生成标准化的表示。将基因组学协调方法从目前仅专注于消除批次效应,转向生成类似于原子坐标数据的、经过精细处理且具有生物学和生物物理动机的细胞状态数据表示,可能是构建具有基础模型价值数据集的关键。此外,随着基因组学方法变得更加经济和普及,我们必须将重点从每个实验的细胞数量转向每个实验的样本数量,以捕捉更密集的时间点、信号传导背景和扰动条件采样。当每个实验可以记录数千个样本,而不是数千个细胞时,我们或许能够开始收集那些显示出与蛋白质结构预测和进化序列建模同样富有成效的重复模式退化特征的数据集。
多模态测序技术的持续发展可以减少细胞状态只能部分观察的问题,但这些方法必须提供稳健、一致的数据集,可以持续重复使用,就像我们看到的 PDB 一样。值得注意的是,PDB 开始的那一年也是《感知器》一书发表的那一年,这本书对神经网络作为统计模型的有限效用进行了悲观的评价。在这一年(1969 年),深度学习还不存在,最复杂的计算机也只有千字节大小的内存。记忆,而且当时也没有意识到 PDB 会为蛋白质结构的计算解决方案提供数据。我们必须同样计划生成具有足够规模、范围和质量的数据集,以便未来使用尚未存在的计算方法。
即使我们正在构建强大的数据集和清晰的建模目标来复制 AlphaFold 的环境,我们也必须认识到蛋白质结构预测和 GRN 建模之间的根本区别。AlphaFold 是一种预测方法;目标不是学习控制蛋白质折叠的生物学物理原理,而是根据氨基酸序列预测结构。GRN 模型的目标不仅应该是预测特定分子遗传状态的表型后果,还应该学习连接这两个尺度的原理。
一个预测细胞表型的黑盒模型是不够的,因为需要可解释性。挑战在于,我们对生物学中可解释性的理解主要存在于分子层面:蛋白质和基因做事;它们是细胞中事实上的机制单元。在系统层面建立可解释的理解将需要新的概念框架,这些框架将定义一个有意义的系统层面机制可以是什么样子。这样的框架需要利用 GRN 的组织特征,例如它们的层次结构和模块化。与蛋白质折叠不同,GRN 可能具有一个表征层,该层不仅捕获分子实现,还捕获这种实现如何响应输入以输出结果的逻辑。解析这种表征逻辑有可能揭示新的设计原则、全新的机制形式,以及生物学中信息如何被控制的新观点。
GRN 的这些特征——层级结构、模块化、DNA 规则和调控层级——为我们指明了 GRN 模型的学习方式。层级结构和模块化意味着 GRN 是可简化的,允许将分子复杂性进行抽象。如果规则存在于 DNA 序列中,那么序列编辑可以重新设计这些规则,从而探索广阔的再设计系统空间。不同调控层级之间的相互作用所产生的组织结构,可以解释看似嘈杂的分子过程如何产生稳健的细胞命运决策。进化分析可以区分历史偶然模式和调控逻辑的基本规则。
当前,GRN的开放问题和挑战:
l 基因调控网络(GRN)可以使用哪些形式的层次结构、模块化和组织来粗粒化?
l 哪些表型与进化数据可以提供关于 GRN结构与功能的信息?
l 在什么抽象层次上,GRN(基因调控网络)与细胞表型之间的因果关系最为明显,我们能否经验性地检测这种规模依赖的因果关系?
l 我们如何验证和基准生物系统的抽象表示模型?
l 一层调控的扰动如何影响其他层的动态?
l 我们能否利用合成生物学来构建真实的合成 GRN 系统?
l 我们能开发出工具,以我们目前对 DNA 和蛋白质序列所达到的精度来设计调控网络结构吗?
l 随着单分子和时间分辨数据的出现,我们对调控的认识发生了怎样的变化?
结论
当前对基因调控网络(GRN)的理解——一个由线条和节点组成的静态图——对于揭示调控网络在细胞中的功能提供了有限的洞察。这一事实与 GRN 最初作为因果分子解释的提出形成了鲜明对比。然而,我们已具备回归机制性观点的条件:单细胞基因组学可以在大规模和高分辨率下测量生物表型,机器学习可以将这些数据转化为更简单的表示形式,通过将这些细胞和进化约束纳入这些表示形式,我们可以将基因调控系统的复杂性提炼为发育过程的核心逻辑。确保这些模型具有意义将需要实验发展来明确分子机制的语言和结构,这既包括它们在不同情境下运作的原理,也包括不同机制相互作用所遵循的关系。能够构建和操纵基因调控系统的合成生物学方法将极大地推动这一工作,提供仅通过研究自然调控系统无法达到的深刻理解。
参考文献
[1] Maizels, R.J., Briscoe, J. Gene regulatory networks: from correlative models to causal explanations. Nat Rev Genet (2026). https://doi.org/10.1038/s41576-026-00939-1
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-4 23:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社