机器人通用大脑来了机器人统一感知推理控制
机器人也要“看-想-动”?上海人工智能实验室联合多方推出通用具身智能大脑框架——VeBrain,让多模态大模型不仅能理解世界,还能实际操控机器人。
VeBrain最大亮点是把“机器人控制”任务转化为语言建模问题。它不靠硬编码动作,而是像大模型处理文本一样,把感知、推理、控制统一起来。
架构方面,VeBrain引入“关键点检测+技能识别”双任务机制,把图像变成锚点、语义转成动作,打通语言与动作之间的鸿沟。再通过机器人适配器模块,实现从目标追踪到实际动作的完整闭环。
支撑这一切的,是60万条指令级数据集VeBrain-600k,覆盖多模态理解、空间推理、机器人控制三大方向,并辅以链式思维标注,兼顾复杂性与准确性。
在多项Benchmark测试中,VeBrain不但多模态理解对标Qwen2.5-VL,空间推理超越GPT-4o,更在实体机器人控制上实现显著提升,远胜同参数的其他模型。
无论是四足机器人还是机械臂,VeBrain都展现出高度的泛化能力和稳健表现,为“具身智能”迈出关键一步。未来,机器人或许真的能“像人一样思考和行动”了。