云霞育儿网

亿级人类动作训练机器人亿级短视频数据突破具身智能ScalingLaw如何让机器人

亿级人类动作训练机器人亿级短视频数据突破具身智能ScalingLaw

如何让机器人从看懂世界,到理解意图,再到做出动作,是具身智能领域当下最受关注的技术重点。

但真机数据的匮乏,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。

尽管业界已投入大量资源构建数据平台(如马斯克主导的“数据工厂”项目),现有真机数据规模仍较模型规模定律所需的上亿级训练样本相差三个数量级。

针对这一关键问题,北京大学&BeingBeyond卢宗青团队提出了创新性解决方案:

该研究团队利用海量人类操作视频提取手部运动轨迹,构建了规模达亿级的训练数据集。

其核心贡献在于提出了“物理指令微调”(physical instruction tuning)方法框架,实现了从人类手部运动到机器人动作空间的精确映射。

基于这一技术突破,团队成功训练出首个基于人类视频手部数据的大规模预训练VLA模型——Being-H0,并完成了真实机器人平台的验证实验。