小米发布并开源具身基座模型MiMo - Embodied,并同步开源技术报告、代码及完整模型。人类在厨房烹饪、客厅整理、道路通行等不同场景中,能依靠同一套对空间、物体及动态规律的通用理解能力完成行为切换,这一现象为AI技术研发提供了关键启发。从技术本质来看,机器人与自动驾驶系统的核心诉求均围绕感知、理解物理世界及预测动态变化展开,理论上可共享统一的物理世界认知框架。该模型通过多阶段预训练、思维链(CoT)及强化学习(RL)微调等技术路径,验证了自动驾驶与机器人数据间显著的正向迁移效应和相互强化价值。经实验验证,该模型在自动驾驶与机器人领域的29个权威基准测试中均达到当前最优水平(SOTA),同时完整保留通用视觉语言能力,充分证明了“统一具身智能大脑”的技术可行性。
