云霞资讯网

[RO]《When Should a Robot Think? Resource

[RO]《When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making》J Liu, P Zhao, Z Kong, X Shen… [CMU & Northeastern University & Harvard University] (2026)

机器人与大语言模型之间,存在一个隐秘的对峙:每一次"调用推理"的决定,都在消耗时间,而时间在现实任务中等同于失败风险。既往系统要么让机器人"想太多"而动作迟滞,要么"不假思索"而频频出错——固定规则无法感知任务复杂度的实时起伏,这一盲区从未被系统性攻克。

本文的核心洞见是:把"何时调用推理"重新看作一个可学习的编排决策,而非一条写死的规则。由此,一个RL策略被插入决策层,在每一步观察任务状态、执行历史与剩余算力后,选择"直接行动"还是"触发推理(规划or验证)"以及投入多少算力——这一关键操作使机器人得以在推理收益与延迟代价之间动态寻优,而无需触动底层控制逻辑。

这项工作真正留下的遗产是:首次将"推理资源管理"作为独立可优化目标引入具身智能体设计,证明编排层可以从执行层解耦而不损失性能上限。它为后来者打开的新门是:更强的推理模块与执行器可以无缝替换进框架,使天花板随能力升级而自动抬高。但尚未跨过的门槛是:当前框架回避了传感器噪声与物理执行不确定性的建模,在真实硬件部署中的鲁棒性仍有待正面检验。

arxiv.org/abs/2603.16673

机器学习 人工智能 论文 AI创造营