想象你拿着一份建筑蓝图,试图建造一座城市。蓝图包含所有信息:每栋建筑的设计、管道的布局、电线的走向。但蓝图本身不是城市。你需要建筑工人、材料、时间,还需要根据现场条件调整——土壤太软需要加固,天气恶劣需要延期,预算变化需要简化。
基因表达就是这样。基因组是蓝图,但细胞是建筑工地。DNA序列包含制造蛋白质的指令,但细胞需要根据环境决定何时何地制造多少,需要协调数千个基因的表达,需要应对材料短缺和机器故障。
传统生物学将基因表达视为"分子机器的执行"——转录因子结合DNA,RNA聚合酶合成mRNA,核糖体翻译蛋白质。这没错,但忽略了决策的维度。细胞不是被动执行,而是主动推断——它"决定"表达什么,基于内部状态和环境线索,基于预期和反馈。
本章将展示,基因表达是活性算法在分子层面的精细实现——一个多层次的、噪声利用的、自适应的推断过程。
二、转录:从DNA到RNA的推断转录是基因表达的第一步:以DNA为模板,合成RNA。这看起来简单,但实际上是复杂的调控决策。
启动子作为开关
每个基因前有一段DNA序列,称为启动子。转录因子(蛋白质)结合启动子,招募RNA聚合酶,启动转录。但启动子不是简单的"开/关"——它有强度(结合转录因子的亲和力),有逻辑(多个转录因子的组合效应),有动态(结合和脱离的速率)。
从活性算法角度,启动子是先验的调制器。基因组序列定义了"默认"的表达模式(U(s)),但转录因子根据环境调整这个模式。如果营养充足,激活代谢基因的转录因子结合;如果压力存在,激活应激基因的转录因子结合。这是贝叶斯更新:观测(环境信号)更新信念(表达状态)。
增强子与三维基因组
基因调控不仅发生在启动子附近。增强子是 distant DNA序列,可以距离目标基因数万碱基对,但通过染色质折叠与启动子物理接触。一个增强子可以调控多个基因,一个基因可以被多个增强子调控,形成复杂的网络。
这是推断的上下文依赖性。相同的基因,在不同的增强子激活状态下,产生不同的表达水平。细胞根据全局环境(通过多个信号通路)决定"如何解读"基因组信息,类似于自然语言处理中的上下文嵌入。
转录爆发与噪声
转录不是平滑的连续过程,而是爆发的——基因在短时间内大量合成mRNA,然后沉默。这种爆发是随机的,受分子碰撞的随机性驱动。
传统观点将噪声视为错误——需要抑制的干扰。但现代观点认识到,噪声是功能性的。爆发的随机性创造细胞间变异,在克隆群体中产生表型多样性。当环境变化时,这种多样性提供** bet-hedging**——某些细胞可能恰好处于适应新环境的状态。
从自由能原理角度,噪声是变分近似的采样。细胞不是寻找唯一的"最优"表达状态,而是从后验分布中采样——这允许探索,允许鲁棒性,允许适应。
三、RNA加工:信息的编辑转录产生的初始RNA(pre-mRNA)不是最终产品。它需要加工:加帽、加尾、剪接。每一步都是信息的选择和转换。
选择性剪接:一个基因,多个蛋白质
真核生物的基因包含外显子(编码序列)和内含子(非编码间隔)。剪接移除内含子,连接外显子。但剪接可以是选择性的——不同的外显子组合产生不同的mRNA,进而不同的蛋白质异构体。
人类基因组约2万个基因,但蛋白质种类超过10万——主要归功于选择性剪接。这是生成模型的多样性:相同的先验(DNA序列),不同的似然(剪接模式),不同的后验(蛋白质功能)。
剪接的选择受顺式元件(RNA序列本身)和反式因子(剪接调控蛋白)控制。这些调控响应环境信号——应激时某些剪接模式增加,分化时其他模式激活。这是推断的条件性:根据上下文,选择不同的"解读"方式。
非编码RNA:调控的层次
大部分转录本不编码蛋白质——它们是非编码RNA(ncRNA)。其中,microRNA(miRNA)和长链非编码RNA(lncRNA)尤为重要。
miRNA是短序列(~22核苷酸),结合目标mRNA,抑制翻译或促进降解。一个miRNA可以调控数百个目标,一个目标可以被多个miRNA调控,形成密集的调控网络。这是推断的层次控制——高层调控因子(miRNA)协调低层程序(蛋白质合成),类似于大脑中的神经调质。
lncRNA功能多样:它们可以调控染色质状态,可以作为蛋白质结合的支架,可以作为miRNA的前体。它们扩展了"基因"的定义——从编码序列到功能性的RNA分子。
四、翻译:从mRNA到蛋白质的推断翻译是基因表达的核心:将mRNA的核苷酸序列转换为蛋白质的氨基酸序列。这是信息的最深层转换——从核酸语言到蛋白质语言,从线性序列到三维结构。
密码子使用与翻译速度
如前所述,遗传密码有简并性,同义密码子的使用频率不同。密码子使用偏倚与tRNA的丰度相关:丰富的tRNA对应高频密码子,翻译更快;稀缺的tRNA对应低频密码子,翻译更慢。
这种速度差异不是缺陷,而是功能性的设计。蛋白质的某些区域需要慢速翻译——例如,跨膜结构域需要在膜插入前充分折叠,慢速翻译允许分子伴侣辅助。其他区域需要快速翻译——例如,结构蛋白需要高效合成。
这是推断的时间控制。mRNA序列不仅编码氨基酸序列,还编码翻译动力学——快-慢-慢-快的节奏模式。核糖体"读取"这个节奏,调整合成速度,影响蛋白质的折叠路径。
共翻译折叠:四维编码
蛋白质的功能不仅取决于氨基酸序列,还取决于三维结构。而结构不是合成后才形成的——折叠与翻译同步进行。新生肽链从核糖体出口通道出现时,就开始形成局部结构,受序列内在倾向和分子伴侣的指导。
这意味着,mRNA编码了四维信息(三维结构+时间)。密码子序列决定了翻译速度,速度影响折叠路径,路径决定最终结构。这是生成模型的动力学:不仅预测最终状态,还预测到达路径。
翻译调控与综合应激反应
细胞可以全局调控翻译。在应激条件下(营养缺乏、病毒感染、高温),细胞激活综合应激反应(ISR):特定的激酶磷酸化翻译起始因子eIF2α,抑制大部分mRNA的翻译,但允许特定应激mRNA的翻译。
这是推断的优先级重排。当环境变化,细胞"决定"暂停常规程序,激活应急程序。这不是简单的开关,而是连续的调整——磷酸化水平决定抑制的程度,允许精细的权衡。
五、蛋白质修饰:功能的微调蛋白质合成后,还需要修饰才能发挥功能。这些修饰是推断的后处理——根据上下文调整蛋白质的活性。
磷酸化:分子开关
磷酸化是在蛋白质上添加磷酸基团,由激酶催化,由磷酸酶去除。它可以激活或抑制蛋白质,改变其定位、稳定性、相互作用。
磷酸化是快速调控——秒到分钟时间尺度,比转录调控(分钟到小时)快得多。它允许细胞响应瞬时的环境变化,而不改变基因表达。这是推断的多时间尺度:磷酸化是快速似然调整,转录是慢速先验更新。
泛素化:质量控制的标记
泛素化是添加泛素蛋白的标签,通常标记蛋白质用于降解。这是推断的错误纠正:如果蛋白质折叠错误,或功能异常,或不再需要,细胞识别并移除它。
但泛素化也有信号功能——某些泛素链不导致降解,而是改变蛋白质相互作用。这是推断的状态标记——蛋白质的功能不仅取决于其结构,还取决于其修饰状态。
糖基化与脂基化:定位的信号
糖基化(添加糖链)和脂基化(添加脂质)影响蛋白质的细胞定位。糖基化标记蛋白质用于分泌或膜插入;脂基化锚定蛋白质到特定膜区域。
这是推断的空间组织。细胞内部是高度区室化的(细胞器),蛋白质需要被送到正确位置才能功能。修饰是"地址标签",指导蛋白质的交通。
六、反馈与稳态:推断的闭环基因表达不是开环的从DNA到蛋白质,而是闭环的调控网络。蛋白质产物反馈影响其自身的合成,创造稳态或振荡。
负反馈:稳态的维持
许多基因受自身产物的负反馈调控。例如,代谢酶基因的表达受代谢物浓度的抑制——产物足够时,合成停止;产物消耗时,合成恢复。这是推断的稳态:系统趋向设定点,抵抗扰动。
从控制理论角度,这是比例-积分-微分(PID)控制的分子实现。从自由能原理角度,这是自由能最小化的稳态吸引子——系统收敛到惊讶最小的状态。
正反馈与双稳态
正反馈是产物促进自身合成。这可以创造双稳态——系统可以处于两种稳定状态之一(开或关),取决于历史和环境。这是推断的多模态:相同的输入可以产生不同的输出,取决于先验状态。
双稳态在细胞分化中至关重要。一个干细胞可以分化为A型或B型细胞——不是渐进的,而是开关式的转变。这种转变受随机噪声驱动(哪个反馈回路先占据优势),受环境信号引导(哪个方向被选择)。
振荡:推断的时间结构
某些基因表达网络创造振荡——蛋白质浓度周期性变化。著名的例子是昼夜节律钟:核心基因(CLOCK、BMAL1、PER、CRY)形成负反馈回路,周期约24小时。
振荡是推断的时间结构。它允许细胞"预测"环境的周期性变化(昼夜、季节),提前调整代谢和活动。这是生成模型的时间深度:不仅推断当前状态,还推断时间序列的规律。
七、细胞决策:从分子到行为基因表达的最终目标是细胞行为——运动、分裂、分化、死亡。这些行为是推断的输出,是基因表达网络的宏观涌现。
趋化性:单细胞的导航
细菌通过趋化性向营养源移动。这涉及信号转导网络:受体感知化学梯度,激酶传递信号,鞭马达调整旋转方向。从基因表达角度,这涉及感应基因(受体合成)和效应基因(鞭毛蛋白)的协调表达。
这是活性算法的完整实现:感知(化学梯度)→ 推断(更新内部状态)→ 行动(运动)→ 观测(新位置的新梯度)→ 更新。闭环持续,直到自由能最小化(到达营养源或放弃)。
细胞分裂:复制的决策
细胞分裂是重大决策,需要复制基因组、分配细胞质、分裂膜。这受细胞周期调控网络控制——周期蛋白(cyclins)和周期蛋白依赖性激酶(CDKs)的振荡驱动相变(G1→S→G2→M)。
细胞"决定"分裂基于多重检查:DNA是否完整?营养是否充足?环境是否适宜?这是推断的整合:多个信号通路的信息汇聚,产生二元决策(分裂/等待)。
细胞分化:身份的建立
多细胞生物的细胞分化是推断的相变。干细胞持有"多能性"的生成模型——可以分化为多种细胞类型。分化时,特定调控网络激活(正反馈),其他网络抑制,细胞锁定在特定身份。
这种锁定是吸引子的占据。每个细胞类型是基因表达状态空间中的一个吸引子——稳定的、自维持的、可识别的。分化是系统从一个吸引子(多能性)转移到另一个(特异性)。
细胞凋亡:程序的死亡
细胞凋亡是程序性死亡——受控的自我毁灭。这不是失败,而是推断的终止:当细胞受损、感染、或不再被需要,它"决定"死亡,以维护整体(组织、生物体)的自由能最小化。
凋亡涉及caspase级联——蛋白酶相互激活,切割细胞结构。这是推断的最终输出:当继续存在的惊讶(损伤、资源消耗)超过终止的代价,系统选择关机。
八、噪声作为资源:随机性的算法功能传统生物学追求"噪声-free"的理想——完美的调控,精确的执行。但现代系统生物学认识到,噪声是基因表达的本质特征,而且是功能性的资源。
基因表达的随机性
单个细胞中,相同基因的表达水平可以差异数倍。这种变异来自:
转录爆发:随机启动和停止
mRNA数量:每个基因1-100个mRNA分子,离散且波动
翻译效率:核糖体碰撞的随机性
蛋白质降解:随机事件
这种噪声不是错误,而是物理的必然——分子数量少,热涨落显著。但细胞利用这种噪声。
** bet-hedging:群体的多样性**
在不可预测的环境中,克隆群体通过噪声产生表型多样性。某些细胞表达应激蛋白(准备困难时期),某些不表达(节省资源)。当环境变化时,某些细胞恰好适应,群体生存。
这是推断的群体智慧:个体不试图预测环境,而是采样不同的策略。从群体角度,这是自由能最小化的最优解——当环境不确定性高时,保持选项开放。
随机共振:噪声增强信号
某些系统在最优噪声水平下响应最强——随机共振。基因调控网络可能利用这种原理:背景噪声放大弱信号,使细胞能够检测接近阈值的刺激。
这是推断的敏感性调节。噪声不是需要消除的干扰,而是可调参数——细胞通过改变分子数量(表达水平)调整噪声水平,优化信号检测。
分化中的随机性
干细胞分化常受随机驱动——哪个调控因子先达到阈值,哪个反馈回路先占据优势。这种随机性不是缺陷,而是探索机制。它允许群体产生多样的细胞类型,填充组织所需的多样性。
九、向第八章的过渡本章我们探索了基因表达的动态——从转录到翻译,从RNA加工到蛋白质修饰,从反馈调控到细胞决策。关键收获:
基因表达是分子层面的推断,多层次、噪声利用、自适应
转录是贝叶斯更新,启动子和增强子调制先验
RNA加工(剪接、ncRNA)扩展生成模型的多样性
翻译是四维编码,速度影响折叠,动力学决定结构
蛋白质修饰是快速调控,多时间尺度推断的体现
反馈网络创造稳态、双稳态、振荡——推断的吸引子
细胞行为(趋化、分裂、分化、凋亡)是推断的宏观输出
噪声是功能性资源,支持 bet-hedging、随机共振、探索
但单细胞只是开始。生命的真正复杂性来自多细胞组织——细胞间的协调、分工、通信。在下一章,我们将进入发育生物学——从受精卵到生物体,从基因组到形态,从分子到器官。
我们将看到,发育不是执行的程序,而是生成的过程——细胞通过局部相互作用,自组织成全局结构。这是活性算法的空间展开,是自由能最小化在形态发生中的体现。
准备好进入胚胎的奇妙世界了吗?
本章要点
基因表达是分子层面的认知,主动推断而非被动执行
转录调控:启动子作为开关,增强子提供上下文,爆发噪声创造多样性
RNA加工:选择性剪接生成多样性,非编码RNA提供层次调控
翻译动力学:密码子使用编码速度,共翻译折叠实现四维编码
蛋白质修饰:磷酸化快速调控,泛素化质量控制,糖基化/脂基化定位
反馈网络:负反馈维持稳态,正反馈创造双稳态,振荡产生时间结构
细胞决策:趋化性导航,分裂检查,分化相变,凋亡终止
噪声作为资源:bet-hedging、随机共振、分化探索
进一步思考
如果基因表达是推断,那么"基因决定论"(DNA决定一切)是错误的吗?环境、随机性、历史在多大程度上"决定"表型?
癌症是基因表达的失调——推断的错误。从活性算法角度,癌症是什么?是吸引子的错误占据,是噪声的失控,还是推断目标的改变(细胞"决定"无限分裂)?
合成生物学试图设计基因回路。从活性算法角度,设计的原则是什么?如何创造自维持、自适应、可进化的合成细胞?
转载本文请联系原作者获取授权,同时请注明本文来自王涛科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41701-1522910.html?mobile=1
收藏