云霞资讯网

AI“大脑”与机器人“身躯”能合体吗

不久前,上海交通大学学生冯临溪带领的IRMV赛队从全球13支顶尖赛队中脱颖而出,斩获第五届ATEC科技精英赛亚军。

这场人形机器人竞赛可比“人形机器人运动会”难多了。赛场像是“荒野求生”现场,机器人要完成定向越野、吊桥穿越等极限任务,而且拒绝遥控。这意味着,人形机器人得像个人一样自主感知、决策、执行任务。

这场比赛也体现了当前全球AI(人工智能)发展中的融合之势:一面,是人形机器人即将步入量产元年;另一面,则是AI大模型不再满足于困在服务器里,而是急切地渴望“身躯”。来自贝恩公司的报告预测,未来10年,人形机器人将开启“通用型劳动力”时代。

AI“大脑”与机器人“身躯”的融合之路,究竟行至何处?其融合的瓶颈与引爆点又是什么?作为中国AI产业高地与机器人研发重镇,上海如何面向未来答好这道题?

融合已是必然

XREAL创始人兼CEO徐驰很喜欢一部十多年前的电影《她》,电影讲述男主角与AI产生了情感羁绊。AI说:“我想看看你的世界。”于是,男主角将手机摄像头固定在衬衫口袋上,让“她”看见眼前的世界。

“今天我们所做的,就是打造一个‘更好的手机’,让AI能够伴随我们。”在徐驰看来,过去两年,以大模型为代表的AI“大脑”经历了能力上的跃迁,大模型逐步走向多模态,当人们不断赋予AI对真实世界的感知能力时,大模型已不再满足于被困在服务器的机箱里,它们渴望“身体”、渴望感官、渴望新的增量数据。

另一方面,机器人“身躯”经过多年发展,在硬件关节、运动控制等方面取得长足进步。2024年世界人工智能大会上,人形机器人还只是展示品,到了2025年,它们已能跑能跳,还能打场拳击赛,证明“躯体”的物理基础正快速成熟。

与此同时,人形机器人产业也已走到量产新阶段。贝恩公司全球合伙人、大中华区高科技业务主席成鑫表示,2024年,人形机器人出货量仅达数千台,但2026年或迎来量产元年,未来5至10年则将进入黄金发展期。就在不久前,智元机器人第5000台通用具身机器人下线,规模效应初显。但公司联合创始人王闯说了一句意味深长的话:“量产只是起点。”它意味着产品开始经受真实场景的考验。

从某种程度上说,窗口期已然打开。AI“大脑”与机器人“身躯”的结合,已不是一个技术是否可行的问题,而是一个何时、以何种方式、在何种规模上落地的问题。

跨越“软硬鸿沟”

尽管趋势明朗,但融合并非坦途。至少,为人形机器人装上“大脑”,可不仅仅是让它变成下一个“导览机器人”,它比大模型与手机、眼镜等智能硬件的融合,也更为复杂。

“AI与具身智能的结合点将聚焦在视觉语言动作模型(VLA模型)具备物理常识和行动能力的闭环系统中。”德勤中国咨询数智工程服务全国主管合伙人孙晓臻认为,这一融合进程具体可以体现为几个递进层次。一是感知与理解的融合,即“眼与脑”的结合,当下VLA模型的发展就成为关键。二是规则与执行的闭环,即“脑与手”的结合,这一层是双向同步的数字孪生,通过在数字环境中训练和模拟,能够实时同步至现实环境中执行。

当下,技术层的“感知—决策—控制”闭环尚未打通,但前沿领域已开始探索这种融合。在ATEC科技精英赛中,上海交大IRMV赛队就在尝试把AI大脑的抽象推理能力,精准转化为机器人身躯在复杂物理世界中的毫米级动作。队长冯临溪介绍,参赛机器人用了“拿来主义”的宇树机器人,“这相当于一个硬件平台,国内已做得非常领先”。团队需要考虑的是算法,比如,定向越野考察的是运动控制和感知力的结合,鼓励机器人自主完成任务,这就意味着需要研发感知算法,设计整个自动化流程,以及处理各种感知算法的特殊情况,光线变化、地面起伏、未知物体等无数变量,都需要通过软硬协同来完成。

宇树科技创始人王兴兴认为,当前具身智能发展仍存在一些挑战,特别在模型层面,多模态数据的融合并不理想,并且在机器人领域,模型与机器人的控制模态对齐也是难点。在他看来,只有当人形机器人能够对80%未曾见过的任务达到80%的完成率时,才意味着通用具身基模的出现。

如果说比赛只是一种模拟,那么,现实中更需要考虑的是“为谁服务”和“能解决什么问题”。贝恩公司全球副合伙人贺赫指出,当前训练数据多来自工业物流场景,缺乏家庭等复杂开放环境的数据积累,这严重限制了模型的场景迁移能力。王闯也看到了量产之后的更深挑战——机器人能否留在场景里,在他看来,找到刚需、高频、可规模复制的落地场景,是商业闭环的关键。

“合体”恰逢其时

从当前AI浪潮的技术演进来看,AI大模型和具身智能是两条较为独立的产业路线。产业规模过于庞大,也增加了“大脑”与“身躯”生态融合的难度。

如果将当下比作“智能手机爆发前夜,充满碎片化与混沌的时刻”,那么无论是机器人操作系统、中间件,还是应用开发生态,都远未形成统一标准。贺赫认为,机器人软件相关的生态正变得越来越重要,很难说有一家公司可以在未来的软件生态下实现通吃,如何在软件生态中占据一席之地,某种程度也会成为机器人厂商的护城河。

这是一个相互促进的过程。在徐驰看来,如果想把AI带入下一阶段,让它变得更个性化、更主动、更强大,需要的是“增量数据”,包括人形机器人、智能眼镜等,都是巨大的增量数据来源,它将更大释放AI的能力。王兴兴也认为,现在让AI干活,顶多算是荒漠上长了几棵小草,爆发性增长的前夜还没有到来。

从某种程度上说,融合不仅仅是把一个大模型“塞”进机器人本体,更需构建一套从底层芯片、操作系统到开发工具、应用商店的完整新生态。孙晓臻表示,从实现难度看,AI与具身智能“合体”仍处于早期发展阶段,在多个维度面临挑战,包括数据缺失、安全与风险控制尚不成熟,以及系统集成与成本压力等,“尽管前景光明,但需要整个生态共同努力”。

“十五五”规划建议将推动具身智能成为新的经济增长点纳入布局。当下,具身智能领域的竞争已从单纯企业引进转向生态构建。2025年8月发布的《上海市具身智能产业发展实施方案》明确提出,到2027年核心产业规模突破500亿元,聚焦全产业链生态构建,抢占生态链战略布局的窗口期。为此,上海的产学研正在协同努力探索中。相信不久的将来,更多成果会走进市场。

文丨徐晶卉

编辑丨王秋童