人形机器人领域又迎来重磅突破。
今天,Figure发布了其迄今为止能力最强的人形机器人模型Helix 02,用单一神经网络实现了从像素输入到全身控制的端到端系统,在一个全尺寸厨房里完成了长达4分钟连续自主复杂任务执行。

Figure的官方X
这可能是迄今为止人形机器人自主完成的时间跨度最长、最复杂的任务。
这个4分钟视频展示了人形机器人走向洗碗机,取出餐具,穿过房间,将物品堆放在橱柜中,最后装载并启动洗碗机。全程完全依靠板载传感器,无人工干预:


更惊艳的是,Helix 02展示了真正的"全身作为工具"能力——当双手被占用时,机器人会自然地用臀部关抽屉,用脚抬起洗碗机门。整个过程流畅自然,宛如真人。


在精细操作层面,借助Figure 03硬件上新增的掌心摄像头和指尖触觉传感器,Helix 02完成了此前难以想象的任务:拿取单颗药丸、精准注射5毫升液体、从杂乱物体中分拣小零件。
这些突破背后,是Figure全新的技术架构——在原有的System 1、System 2基础上,新增了System 0,形成了一个完整的分层控制系统。
▍一个神经网络,搞定人形机器人全身控制
人形机器人的移动操作(loco-manipulation)一直是业界公认的难题。难点不在于单独实现行走或操作,而在于两者的深度耦合——举起物体时平衡会改变,向前迈步时够取范围也会变化,手臂和腿部时刻相互制约。
传统解决方案通常采用状态机,将行走和操作分离为不同的控制器:走、停、稳住、抓、再走。这种切换缓慢、逻辑脆弱,而且看起来极不自然。

Helix 02的架构
Figure的突破在于构建了一个能同时对全身进行推理的单一学习系统。Helix 02采用分层架构,每个系统在其自然的时间尺度上运行:
System 2负责慢速推理,以约1Hz的频率处理场景理解、语言解析和行为序列规划。它不需要规划底层的步法或手脚协调方式,只需生成语义级别的潜变量。
System 1是快速反应层,以200Hz的频率将所有传感器输入转化为全身关节目标。这一层真正实现了"全传感器输入,全执行器输出"——头部摄像头、掌心摄像头、指尖触觉传感器和全身本体感觉的信息,被统一处理并映射到腿部、躯干、头部、手臂、手腕和每根手指的控制指令。

System 1
最关键的创新是新增的System 0,这是一个以1kHz频率运行的全身控制器,专门处理平衡、接触和协调。与传统方法为每个动作单独设计奖励函数不同,System 0直接从超过1000小时的人类运动数据中学习。
这个仅有1000万参数的神经网络,用单一的神经先验取代了109,504行手工编写的C++代码,实现了稳定、自然的运动。System 0完全在仿真环境中训练,涵盖超过20万个并行环境,通过广泛的域随机化实现了向真实机器人的直接迁移。
三个系统协同工作,构成了从像素到扭矩的紧密集成层级体系。当System 2理解"把碗端到柜台上"这样的指令时,System 1将其解释为具体的运动轨迹,System 0则确保每一个动作都能在保持平衡的前提下流畅执行。
▍触觉+掌心视觉,解锁毫米级精细操作
Helix 02的另一大亮点是前所未有的灵巧操作能力。这得益于Figure 03硬件平台的两项关键升级:掌心摄像头和高灵敏度触觉传感器。

灵巧操作
掌心摄像头解决了操作中的自遮挡问题。当机器人伸手抓取物体时,头部摄像头往往会被手臂遮挡,而掌心视角能够提供关键的手内视觉反馈。这使得机器人能够在视线受阻的情况下,依然准确地定位和抓取目标物体。
指尖触觉传感器的灵敏度达到了3克级别——足以感知一枚回形针的重量。这种精细的力反馈让机器人能够实现真正的力控制抓取,而不是简单的位置控制。
在演示中,Helix 02展示了四项极具挑战性的灵巧操作任务:
拧开瓶盖需要双手协调,一只手稳定瓶身,另一只手施加连续、受控的旋转力,整个过程需要根据触觉反馈实时调节抓握力,避免打滑或压坏容器。
从药盒中取出单颗药丸考验的是毫米级的精准控制。药丸经常被头部摄像头遮挡,机器人必须依靠掌心视觉和触觉引导,在狭小的收纳格中准确定位并拾取。
精准推动注射器5毫升要求极高的力控精度。机器人需要克服可变阻力,在严格的公差范围内推动柱塞,这需要多指协调配合触觉反馈的精细力控制。
从杂乱盒子中拾取金属件则是一个综合性挑战。物体相互重叠、遮挡且易位移,机器人需要通过视觉选择抓取点,并通过触觉确认接触状态。这个任务的物体来自Figure的BotQ制造设施,展示了技术向实际应用场景的迁移潜力。

这些能力的实现,标志着人形机器人从"看到即抓取"向"感知即操作"的重要转变。触觉和掌心视觉的加入,让机器人的操作能力产生了质的飞跃。
▍从实验室到真实世界,人形机器人的未来已来
Helix 02最令人关注的演示,是在全尺寸厨房中完成的4分钟洗碗机装卸任务。这项任务包含61个连续的移动操作动作,全程无需重置,也无需人工干预。
整个过程展现了多个技术亮点:机器人在手持易碎餐具时稳定行走,每一步都保持可靠抓握;当需要关闭抽屉而双手被占用时,自然地使用臀部完成任务;用脚抬起洗碗机门,展现了将全身作为工具的能力。
更重要的是动作的连贯性和自然性。机器人能够在数分钟的执行过程中保持任务状态,具备隐式的错误恢复能力。同一个神经网络既能产生毫米级的手指运动,也能产生房间级的行走轨迹,动态范围跨越了四个数量级。
从技术趋势来看,locomotion与manipulation的深度融合很可能成为2026年人形机器人领域的重要主线。目前大多数系统还停留在桌面级操作与有限移动的结合,而真实世界中的高价值任务往往需要身体与操作的强耦合——比如抱起大型箱子时的姿态平衡,或在搬运过程中借助墙面、膝盖等身体部位进行支撑。
Figure CEO Brett Adcock将这次发布称为"巨大的技术突破"。确实,从System 0用神经网络替代10万行C++代码,到实现4分钟的连续自主任务,Helix 02展示了数据驱动方法在人形机器人领域的巨大潜力。

当然,技术仍处于早期阶段。但Helix 02已经让我们看到了人形机器人进入家庭和工作场所的可能性。当机器人能够像人类一样自然地行走、操作和平衡,能够处理需要毫米级精度的任务,能够将全身作为工具灵活运用,距离真正的通用人形机器人或许已经不远。
人形机器人的GPT时刻,可能真的要来了。
(更多人形机器人赛道深度文章,请关注微信公众号“人形机器人发布”)