[LG]《PRISM: Demystifying Retention and I

[LG]《PRISM: Demystifying Retention and Interaction in Mid-Training》B Runwal, A Agrawal, A Roy, R Panda [IBM Research] (2026)

大型语言模型在预训练后，直接接受强化学习（RL）往往收效甚微——AIME数学题的得分接近于零。业界普遍在预训练与RL之间插入一个「中间训练」阶段，却缺乏系统性指引：该用什么数据、多少量、在何时介入，以及它究竟如何影响后续RL？根本原因在于，这三个阶段的相互作用从未被跨模型、跨架构地严格对照研究过。

本文的核心洞见是：把中间训练阶段重新看作一次「表征地形塑造」——它不是在微调能力，而是在为RL预先构建一片可供攀登的地形。由此，一个关键发现使问题得以解开：中间训练对超过90%的模型参数进行了大幅重构，而随后的RL仅对约5%的参数做出稀疏调整，且无论是否经历中间训练，RL施加的权重变化模式几乎完全相同——却只有在中间训练之后，RL才真正奏效。数据组合（而非数据量）决定了这片地形的形状：在中间训练时加入科学数据，可在后续RL中额外解锁17至28分的科学推理增益；而仅改变RL阶段的数据配比，差异不足2分。

这项工作真正留下的遗产是：将「中间训练」从一个模糊的工程经验，升格为可被机制性理解和设计的训练阶段。它为后来者打开的新门是：通过中间训练的数据配方来预先规划模型的RL可塑性，以及跨架构（含Mamba混合架构）推广这一范式的可能性。但尚未跨过的门槛是：研究规模仅止步于24B参数，所有RL提示的难度过滤均依赖单一模型完成，距离自适应、模型感知的训练流水线设计仍有距离。

arxiv.org/abs/2603.17074

机器学习人工智能论文 AI创造营

云霞资讯网

[LG]《PRISM: Demystifying Retention and I

热门分类