智驾发展路径又到了一个分岔路口，以理想、小鹏以及元戎为代表的车企押注VLA技

汽车Lab 2025-09-01 17:11:04

智驾发展路径又到了一个分岔路口，以理想、小鹏以及元戎为代表的车企押注 VLA 技术路线，但是以华为为首的代表，就不太认同，华为车 BU CEO 靳玉志公开说华为不会采用 VLA 技术路线，地平线最新的 HSD 采用也并 VLA，更强调端到端。

为什么会出现分歧，各自的论点是什么？

首先要先明确下，VLA 与端到端并非对立关系，VLA 是端到端模型，但端到端不一定是 VLA。

明确这个概念之后，我们再看 VLA 能够做到什么。

VLA 是视觉语言行为模型，非常强调语言模型 Language model 的作用，它会把感知任务全部转化成语言的 token 来进行训练，再来变成 action，来控制车辆，并且它是一个端到端的模型，且有着比较强的可解释性。

缺点是什么，语言模型存在歧义，语言和空间对齐关系的稳定性以及推理延迟性等等，本诺大佬这篇文章写得很清楚，建议全文阅读。

所以，以华为为首的一些代表，不认可 L 在 AD 的作用，华为更强调 WA（World Model Action ）。

这里贴一些华为李文广在接受我们专访时的原话。

华为李文广：它（VLA）有一个很大的弱点，它对空间的感知能力不行，因为我们的车是要做具体动作的，要在空间里面运动，那它在这块的感知能力不行，就这样就导致你让它来做动作的话，其实我是觉得，这条路挺危险的。

这段话的重点在于空间理解，用语言模型来强调确认空间关系，华为认为这是行不通的。

元戎启行周光坚定地认同 VLA 的价值，核心论点是：

VLA 把视觉、语言、动作统一在一个大模型里，天然具备解读语义、推理规则的能力，因此可以“看懂”而不是“记住”这些长尾情况。

VLA模型具备思维链（COT）能力，支持长时序推理。短期记忆依靠视频帧，长期记忆则借助关键帧与语言描述。正是因为具备思维链（COT）能力，VLA 处理更复杂路况，更深层次的推理能力更加突出。

对于消费者来说，其实什么路线不重要，体验才最重要。目前已量产或开放 demo 体验的 VLA，我个人觉得在体验上还远远没有达到预期。反之，采用世界模型的 NOP+ 或者是 ADS 4 的早鸟版本体验，也或多或少出现了一些问题。

所以说，别争了，我们再过一两个季度再看看。

0 阅读：1

一位华为赛力斯问界M9的“野生销售员”，硬是拽着一位五十多岁的大叔去试驾，结果却