[CL]《Code-enabled language models can outperform reasoning models on diverse tasks》C E. Zhang, C Colas, G Poesia, J B. Tenenbaum... [MIT & Inria] (2025)
传统的推理模型(Reasoning Models,RMs)通过大规模强化学习训练,虽提升了语言模型(Language Models,LMs)在复杂推理任务上的表现,却训练成本高昂、推理耗时且资源消耗大。本文提出了一种经济高效的替代方案——CodeAdapt,结合了CodeAct框架(允许LM多轮交替使用自然语言与可执行代码进行推理)和一种轻量级的少样本自适应学习策略(Generalization-guided Few-shot Learning,GFL),仅需5个训练样例即可实现显著性能提升。
【核心贡献】
1. 性能超越:在涵盖指令执行、语言处理、数学逻辑等8个任务中,CodeAdapt支持的标准指导型LMs平均超过对应强化学习训练的RMs,部分任务提升达35.7%,且推理时的token使用效率提高10%-81%。
2. 资源节约:训练成本仅为RMs的极小部分(约几十美元级别),推理速度更快,消耗的计算资源明显降低。
3. 混合推理架构:将自然语言推理与符号化代码执行结合,模型能动态选择策略、分解子任务、迭代验证,表现出类人认知中的元认知能力(如进度监控、策略调整、资源管理)。
4. 任务适应性强:不同任务触发不同的代码与语言推理比例,展现出灵活应对多样问题的能力。比如逻辑约束问题重度依赖代码执行,而创造性任务则更多依赖语言表达。
5. 认知科学启示:支持“思维程序化”理论,即人类思考可能依赖于类似程序的表征,且自然语言本身可作为认知的基本形式之一。
【方法亮点】
- CodeAct框架允许LM以多轮对话形式生成并执行Python代码,实现精确计算、验证和问题分解。
- GFL通过评估解答在训练集外的泛化表现,挑选最具代表性和迁移性的少样本示例进行上下文引导,避免了强化学习的高昂开销。
- 灵活的推理预算管理保障系统在有限资源内高效完成推理。
【实验概况】
- 评测模型覆盖DeepSeek、Gemini、Qwen等多家主流开源及API模型。
- 任务涵盖:Instruction Following(指令执行)、Language Processing(语言理解与生成)、Formal Reasoning(数学逻辑)。
- CodeAdapt在绝大多数任务和模型上均领先强化学习训练的RMs,特别是在语言任务表现更稳定,RL训练有时反而效果有限。
- 资源消耗方面,CodeAdapt推理速度提升16%-47%,token使用减少10%-80%。
【未来展望】
- 探索结合更多工具(如互联网检索)、引入更丰富库及跨模型调用,提升系统通用性与智能水平。
- 进一步结合RL训练与CodeAdapt,打造更强大的多模态推理系统。
- 深入研究人类认知机制启发的混合推理架构,推动AI系统更贴近人类思维方式。
全文链接:arxiv.org/abs/2510.20909
总结:CodeAdapt表明,通过融合代码执行能力与少样本自适应学习,标准语言模型即可实现强大且高效的推理能力,这为构建经济实用的智能系统提供了全新思路,也为认知科学与AI系统设计架起了桥梁。






