前言:这项工作被视为推动未来社交机器人、虚拟主持与人形服务机器人自然交互能力的一项关键进展。
美国哥伦比亚大学的研究团队近日展示了一款名为 EMO 的新型仿人机器人头部,它不仅能做到嘴唇与语音高度同步的“完美对口型”,还可以通过自我学习逐步掌握类人发声方式,被视为向类《西部世界》式超拟真人形机器人迈出的重要一步。

这款机器人由机器人学博士生胡宇航(Yuhang Hu)、教授霍德·利普森(Hod Lipson)及其团队开发,本质上是一个覆盖柔性硅胶“皮肤”的机器人头部结构。在硅胶面部下方布置了 26 个微型电机,不同组合驱动时可以拉动面部产生各种表情,同时塑造不同形状的嘴唇。
值得关注的是,胡宇航是具身智能公司「首形科技」AheadForm的创始人,该公司成立于 2024 年,不同于大多数以“功能型工具”为目标的人形机器人企业,该公司聚焦突破机器人“脸”的相关技术,使人与机器之间互动更自然。
公开资料显示,胡宇航创办的首形科技成立之初曾获得智元机器人的天使轮投资,在过去一年时间里已连续完成了 4 轮融资,其中 A+ 轮融资过亿。

2025 年 12 月公司推出国内首款游戏角色 1:1 仿生机器人“方承意”,具备 36.5℃ 恒温皮肤及多模态交互能力,应用于展览、陪伴等场景。
为了让 EMO 学会如何用“表情肌肉”控制嘴型,研究人员首先将它放在镜子前,让其在无人干预的情况下随机做出成千上万种面部表情,并实时观察镜中反馈。在这一过程中,系统逐步建立起电机组合与视觉表情变化之间的对应关系,这种学习框架被称为“视觉到动作”(Vision-to-Action,VLA)语言模型。
在掌握“表情—电机”映射后,机器人开始进入“模仿人类说话”的阶段。研究团队为 EMO 输入了大量人类说话和唱歌的 YouTube 视频,用于分析不同语音在发出时嘴部应呈现的运动模式,进而学习各类声音对应的口形特征。其后,系统将这部分知识与先前获得的 VLA 模型融合,使机器人在通过合成语音模块发声时,能够同步生成与语音内容相匹配的唇部动作。
目前,这一技术仍然不算完美,EMO 在发出诸如“B”“W”等辅音时仍存在明显困难,整体口型协调度还有提升空间。研究人员表示,随着机器人不断练习说话,其口型控制精度和与人自然对话的流畅度都有望进一步改善。
胡宇航指出,当这种对口型能力与 ChatGPT、Gemini 等对话式人工智能系统结合时,人类与机器人的互动将产生更加“有温度”的连接效果。他认为,机器人观看人类对话的次数越多,就越能逼真地模仿那些带有情感色彩的细微面部动作,而随着对话“上下文窗口”的延长,这些表情和动作也会变得更加贴合语境。
相关研究论文已发表于《Science Robotics》期刊,更多技术细节由哥伦比亚大学工程学院对外发布。这项工作被视为推动未来社交机器人、虚拟主持与人形服务机器人自然交互能力的一项关键进展。
免责声明
文章来源:中国机器人网