理想汽车 VLA 大模型:驱动人工智能从 “虫” 到 “人” 的进化飞跃
在5 月 7 日的 “理想 AI Talk 第二季” 上,理想汽车董事长兼CEO李想带来了一场关于人工智能与汽车科技深度融合的思想盛宴,主角便是理想汽车全力打造的 VLA 司机大模型。这场发布会,不仅为辅助驾驶的未来指明方向,更像是为汽车行业注入一针 “强心剂”,引发各界对智能交通变革的无限遐想。
AI 进化三部曲:从信息工具迈向生产工具
李想对 AI 工具的层级划分,犹如一把手术刀,精准剖析了当下 AI 的发展格局。多数人手中的 AI 还停留在信息工具层面,虽能提供海量信息,却也充斥着大量无效内容,仅作参考聊胜于无。而辅助驾驶的出现,让 AI 晋升为辅助工具,效率得以提升,但人类依旧牢牢握着控制权。
李想坚信,AI 真正的高光时刻,是成为生产工具,能够独当一面完成专业任务。这就好比人类雇佣司机,未来的人工智能也将在各个领域承担起专业工作,而辅助驾驶领域的 VLA,就是 AI 进化为生产工具的鲜活例证。
VLA:智能驾驶的进化史诗
理想汽车的 VLA,全称为视觉语言行动模型,它的诞生并非一蹴而就,而是经历了一场漫长而精彩的进化之旅。回顾理想汽车辅助驾驶的发展历程,恰似一部生物进化史。早期依赖规则算法和高精地图的辅助驾驶,如同 “昆虫动物智能”,虽能运作,但相对简单、机械。
到了 2023 - 2024 年,端到端 + VLM 辅助驾驶登场,接近 “哺乳动物智能”,可处理更复杂的路况。然而,端到端模型存在局限,VLM 依赖开源模型,在交通领域施展不开拳脚,二者沟通上也存在障碍。
为突破困境,2024 年起,理想汽车全力投入 VLA 研究,多篇学术论文为其筑牢理论根基。VLA 的 “人类智能” 阶段令人期待,它能凭借 3D 和 2D 视觉组合,还原真实物理世界,不再局限于 2D 图像解析。其拥有的完整脑系统,具备语言和思维链推理能力,真正实现看、懂、行一体化,像人类司机一样灵活应对复杂路况。
模拟人类学习:VLA 的训练秘籍
VLA 的训练过程,巧妙模拟人类学习驾驶的步骤,分为预训练、后训练和强化训练。预训练阶段,如同人类积累物理和交通常识,通过海量高清视觉数据、语言语料和联合数据,训练出云端 VL 基座模型,并转化为车端高效运行的端侧模型。
后训练时,Action 数据的加入让 VL 基座模型 “进化” 为 VLA 司机大模型。短链条的思维链和 Diffusion 扩散模型赋予 VLA 实时博弈能力,在复杂路况中自如穿梭。
强化训练则是让 VLA 在 “社会” 中历练,通过基于人类反馈的强化学习,确保其严守交通规则,贴合中国用户驾驶习惯;在世界模型中训练,提升舒适性,避免事故。经过层层打磨,VLA 司机大模型方能在车端稳定运行。用户与它沟通就像和人类司机交流一样自然,简单指令端侧处理,复杂指令云端解析后再由 VLA 执行。
攻克难题:安全与透明的双重保障
随着模型能力增强,安全性和黑盒问题成为智能驾驶的 “拦路虎”。理想汽车组建超 100 人的超级对齐团队,在强化训练环节严格把关,为 VLA 注入职业素养,防止其学习违规驾驶行为,保障安全与舒适。
针对模型黑盒难题,理想汽车打造世界模型,结合重建和生成路径,还原真实交通场景。借助世界模型的仿真能力,VLA 能低成本验证现实问题,提升解决问题的效率,让模型决策不再神秘。判断 VLA 是否优秀,专业能力、职业能力和构建信任能力是关键标准,而 VLA 在这三方面都表现出色。
成长的力量:技术突破与人生感悟
理想汽车在技术领域的成功,离不开扎实的基本功。从研究突破到研发效率提升,再到业务落地,理想汽车坚持自研,攻克诸多技术难关。例如,自研底层推理引擎,让芯片能运行语言模型;凭借综合技术能力,实现不同芯片运行 VLA 司机大模型。
尽管受益于开源技术节省了时间和成本,但理想汽车仍加大投入打造自研模型,并开源自研汽车操作系统回馈社会。
谈及创业与个人成长,李想感慨万分。在理想汽车成立十周年之际,他回顾创业路上的酸甜苦辣,将挑战视为成长的机遇,用积极心态应对困难,带领理想汽车成长为行业新势力的佼佼者。他认为关注自我成长、接受自身优缺点,以及重视亲密关系,是成为有能量之人的关键。李想表示:“我们可以站在巨人的肩膀上,但它只是其中的一部分。”在受益开源的同时,理想汽车也选择开源自研的汽车操作系统——理想星环OS,回馈社会。
从解决电池和充电难题,到自研汽车操作系统,再到探索 VLA 无人区,理想汽车一路披荆斩棘。在人工智能的十字路口,理想汽车将继续凭借 VLA 司机大模型挑战成长极限,为行业发展和用户体验创造更多价值,引领辅助驾驶走向更加美好的未来。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。