屏幕上,一个细胞正在慢慢变大。它只有几百纳米宽,肉眼完全不可见,但在模拟画面里被放大到可以看清内部的一切:蛋白质、RNA、核糖体密密麻麻地挤在一起。一条环形染色体蜷缩在中央,正在被复制。
到第 65 分钟前后,细胞开始变形,腰部收窄,拉成哑铃的形状。第 105 分钟,两个子细胞彻底分开,各自带走了一套完整的染色体,以及大约一半的核糖体、蛋白质和 RNA。
(来源:Youtube)
这看起来是不是像一段手搓的虚拟 3D 动画?但它不是,它是两块 GPU 跑了 6 天的计算结果,里面每一个分子的每一步移动,都是计算机算出来的。
2026 年 3 月,美国伊利诺伊大学厄巴纳-香槟分校(UIUC)化学系教授 Zaida Luthey-Schulten 领衔的团队在 Cell 期刊上发表了这项工作。他们构建了一个四维全细胞模型(4DWCM,即三维空间加时间维度),完整模拟了已知基因组最小的自由生活细菌 JCVI-syn3A 从"出生"到一分为二的整个生命周期——大约 105 分钟。这是人类第一次在计算机中让一个细胞"活"过完整的一生,而且每一步都符合真实的生物物理规律。
图 | 团队合影(来源:UIUC)
实验的天选细胞——JCVI-syn3A
要在电脑里模拟一个活细胞,是一项面临生物复杂性挑战的工作,所以首先要选择一个足够简单的对象。而 JCVI-syn3A 正是这样的存在。
它的前身可以追溯到 2010 年。那一年,J. Craig Venter 研究所(JCVI)合成了第一个完全由人工基因组驱动的细菌细胞 JCVI-syn1.0,基因组约 108 万碱基对、901 个基因。
2016 年,团队将基因组精简到 47.3 万碱基对、473 个基因,造出了 JCVI-syn3.0。它是已知自主复制生物中最小的基因组(据 Hutchison 等人 2016 年发表于《Science》的论文)。
但 syn3.0 有一个极大的缺陷:它不能正常分裂,细胞形态混乱。一直到 2021 年,JCVI 的 Pelletier 等人在 Cell 报道,通过加回 7 个基因(其中 5 个此前功能未知),这才得到了 JCVI-syn3A:493 个基因,倍增时间约 105 分钟,能规律地球形生长并对称分裂。
493 个基因是什么概念?大肠杆菌有大约 4,300 个基因,人类细胞有大约 2 万个蛋白质编码基因。Syn3A 可以说是自然界中能独立存活的“最低配置”。正因为足够简单,它成了全细胞建模的理想试验场。
从“搅拌均匀”到真正的三维空间
Luthey-Schulten 团队并非第一次做全细胞模型。2022 年,他们就在 Cell 上发表了 Syn3A 的“搅拌均匀”(well-stirred)模型,即把细胞当作一个均匀混合的反应器,用随机-确定性混合动力学模拟基因表达、代谢和生长。那个模型已经能预测出与实验吻合的倍增时间和蛋白质分布。
但问题在于,细胞不是试管。RNA 聚合酶得在三维空间中扩散、找到 DNA 上的启动子才能开始转录;负责降解 mRNA 的降解体(degradosome)被限制在细胞膜内侧;核糖体有约 20 纳米的体积,会挤占周围的空间。这些空间效应,在均匀搅拌的假设下全部被忽略了。
这次的 4DWCM 对这个局限实现了全面突破。模型把细胞的三维空间切成了 10 纳米边长的立方格点,所有蛋白质和 RNA 都在格点上扩散、碰撞、反应……每一个分子都是独立追踪的粒子。这种空间上的异质性,使分子间的相遇与反应更贴近真实细胞内的拥挤环境,也自然呈现出生命过程固有的随机特征。
(来源:论文)
四种计算方法结合
不过要模拟一个细胞的全部过程,没有哪一种计算方法能独自胜任。因此团队的做法是把四种不同的模拟方法组装成一个混合框架:空间中的反应和扩散用 RDME(Reaction-Diffusion Master Equation,反应-扩散主方程)处理;全局的转录和 tRNA 装载等反应用 CME(Chemical Master Equation,化学主方程)做随机模拟;糖酵解、核苷酸合成等代谢网络用 ODE(Ordinary Differential Equations,常微分方程)求解;染色体的物理行为:聚合物运动、DNA 复制、蛋白驱动的环挤出,则用布朗动力学(Brownian Dynamics)在第二块 GPU 上并行模拟。
(来源:论文)
四种方法通过一个通信算法每隔 12.5 毫秒同步一次数据。模拟一个完整细胞周期需要 4 到 6 天的实际计算时间。论文中报告的 50 个重复细胞模拟,总共消耗约 15,000 GPU 小时,全部运行在 NVIDIA A100 上。据 UIUC 新闻稿,团队使用的是国家超级计算应用中心的 Delta 超算系统。
那么通过这样的方法“焊接”,最后模拟结果有多准?
最直接的验证是倍增时间:模拟细胞平均 105 分钟完成膜面积倍增,与实验值完全一致。DNA 复制平均耗时 51 分钟。
更精细的验证来自 ori:ter 比,即染色体复制起点与终点的测序覆盖深度之比,反映群体中 DNA 复制的平均进度。模拟预测值为 1.28,团队自己做的全基因组测序实测值为 1.21,高度吻合。这意味着模型不仅恢复了正确的总时间,连 DNA 复制的节奏也基本对了。
模型还预测了分裂时刻细胞的分子组成:约 881 个核糖体、176 个 RNA 聚合酶、192 个降解体。约 55% 的核糖体和 70% 的 RNA 聚合酶在任意时刻处于活跃状态。mRNA 的平均半衰期约 3.6 分钟,落在已知细菌的观测范围内。这些数字过去需要分别设计不同实验去测量,现在从一次模拟中同时产出。
此外,4D 模型最有价值的地方,不是重复已有结果,而是揭示了空间效应对细胞行为的实质影响。
一个典型例子:DNA 复制的启动蛋白 DnaA 需要在三维空间中扩散到染色体的复制起点上,才能触发复制。团队最初使用的结合速率参数在 well-stirred 模型中工作正常,但在 4D 模型中,12 个测试细胞在 60 分钟内无一启动复制,因为 DnaA 必须“真的走过去”才行。换用了结合力更强的参数后,复制才正常启动。在均匀搅拌假设下好用的参数,放到三维空间中可能就不够了。
另一个发现涉及细胞分裂后的分子分配。核糖体、膜蛋白等的分配大致随机,两个子细胞之间没有系统性偏差。但降解体出现了有趣的偏斜:当大块 DNA 被挤向细胞一侧时,DNA 占据的空间会排斥附近的降解体,导致那一侧降解体偏少。这种空间拥挤导致的不均匀分配,是把细胞当试管的模型永远看不到的。
不过,实验也存在其局限性。最突出的一个:染色体分离靠的是人工施加的排斥力。Syn3A 基因组中找不到已知的染色体分离系统,团队不得不用外力“推开”两条子代染色体。论文承认这是一个限制,初步探索显示更精细的蛋白模型可能有潜力替代,但计算成本太高,可能把单个细胞的模拟时间从 6 天拉到数周。
其他局限还包括:没有处理多个基因共转录的情况;缺少多核糖体效应(多个核糖体同时翻译一条 mRNA),导致长蛋白质产量偏低;代谢中某些核苷酸的浓度偏低,可能缺少反馈抑制机制。团队也列出了下一步最需要的实验数据:Syn3A 的定量代谢组学、全基因组 mRNA 半衰期、蛋白质半衰期、以及长读长转录组学。
全细胞建模的一个台阶
此次的研究还带领全细胞建模走上了一个新台阶。
此前最有影响力的全细胞动力学模型是 2012 年的生殖支原体模型(Karr 等,Cell)和 2020 年的大肠杆菌模型(Macklin 等,Science),将细胞内部视为均匀混合体系,未纳入空间维度的影响。
而本次针对 Syn3A 构建的 4DWCM 框架,首次实现了空间分辨率、反应随机性与完整细胞周期三者的同步整合,使模型能够更真实地反映分子在细胞内的定位、扩散与相互作用过程。不过背后的代价是巨大的算力消耗。
团队指出,未来两种模型应该形成互补:用 4D 模型校准参数,再用 well-stirred 模型做大规模采样。这种分层建模策略,有望在保持物理真实性的同时,提升全细胞模拟的实用性与可扩展性。
参考链接:
1.https://www.cell.com/cell/fulltext/S0092-8674(26)00174-1
运营/排版:何晨龙