人形机器人告别面瘫脸，离西部世界更进一步

前言：这项工作被视为推动未来社交机器人、虚拟主持与人形服务机器人自然交互能力的一项关键进展。

美国哥伦比亚大学的研究团队近日展示了一款名为 EMO 的新型仿人机器人头部，它不仅能做到嘴唇与语音高度同步的“完美对口型”，还可以通过自我学习逐步掌握类人发声方式，被视为向类《西部世界》式超拟真人形机器人迈出的重要一步。

这款机器人由机器人学博士生胡宇航（Yuhang Hu）、教授霍德·利普森（Hod Lipson）及其团队开发，本质上是一个覆盖柔性硅胶“皮肤”的机器人头部结构。在硅胶面部下方布置了 26 个微型电机，不同组合驱动时可以拉动面部产生各种表情，同时塑造不同形状的嘴唇。

值得关注的是，胡宇航是具身智能公司「首形科技」AheadForm的创始人，该公司成立于 2024 年，不同于大多数以“功能型工具”为目标的人形机器人企业，该公司聚焦突破机器人“脸”的相关技术，使人与机器之间互动更自然。

公开资料显示，胡宇航创办的首形科技成立之初曾获得智元机器人的天使轮投资，在过去一年时间里已连续完成了 4 轮融资，其中 A+ 轮融资过亿。

2025 年 12 月公司推出国内首款游戏角色 1:1 仿生机器人“方承意”，具备 36.5℃ 恒温皮肤及多模态交互能力，应用于展览、陪伴等场景。

为了让 EMO 学会如何用“表情肌肉”控制嘴型，研究人员首先将它放在镜子前，让其在无人干预的情况下随机做出成千上万种面部表情，并实时观察镜中反馈。在这一过程中，系统逐步建立起电机组合与视觉表情变化之间的对应关系，这种学习框架被称为“视觉到动作”（Vision-to-Action，VLA）语言模型。

在掌握“表情—电机”映射后，机器人开始进入“模仿人类说话”的阶段。研究团队为 EMO 输入了大量人类说话和唱歌的 YouTube 视频，用于分析不同语音在发出时嘴部应呈现的运动模式，进而学习各类声音对应的口形特征。其后，系统将这部分知识与先前获得的 VLA 模型融合，使机器人在通过合成语音模块发声时，能够同步生成与语音内容相匹配的唇部动作。

目前，这一技术仍然不算完美，EMO 在发出诸如“B”“W”等辅音时仍存在明显困难，整体口型协调度还有提升空间。研究人员表示，随着机器人不断练习说话，其口型控制精度和与人自然对话的流畅度都有望进一步改善。

胡宇航指出，当这种对口型能力与 ChatGPT、Gemini 等对话式人工智能系统结合时，人类与机器人的互动将产生更加“有温度”的连接效果。他认为，机器人观看人类对话的次数越多，就越能逼真地模仿那些带有情感色彩的细微面部动作，而随着对话“上下文窗口”的延长，这些表情和动作也会变得更加贴合语境。

相关研究论文已发表于《Science Robotics》期刊，更多技术细节由哥伦比亚大学工程学院对外发布。这项工作被视为推动未来社交机器人、虚拟主持与人形服务机器人自然交互能力的一项关键进展。

免责声明

文章来源：中国机器人网

云霞资讯网

人形机器人告别面瘫脸，离西部世界更进一步

热门分类