智驾发展路径又到了一个分岔路口,以理想、小鹏以及元戎为代表的车企押注 VLA 技术路线,但是以华为为首的代表,就不太认同,华为车 BU CEO 靳玉志公开说华为不会采用 VLA 技术路线,地平线最新的 HSD 采用也并 VLA,更强调端到端。
为什么会出现分歧,各自的论点是什么?
首先要先明确下,VLA 与端到端并非对立关系,VLA 是端到端模型,但端到端不一定是 VLA。
明确这个概念之后,我们再看 VLA 能够做到什么。
VLA 是视觉语言行为模型,非常强调语言模型 Language model 的作用,它会把感知任务全部转化成语言的 token 来进行训练,再来变成 action,来控制车辆,并且它是一个端到端的模型,且有着比较强的可解释性。
缺点是什么,语言模型存在歧义,语言和空间对齐关系的稳定性以及推理延迟性等等,本诺大佬这篇文章写得很清楚,建议全文阅读。
所以,以华为为首的一些代表,不认可 L 在 AD 的作用,华为更强调 WA(World Model Action )。
这里贴一些华为李文广在接受我们专访时的原话。
华为李文广:它(VLA)有一个很大的弱点,它对空间的感知能力不行,因为我们的车是要做具体动作的,要在空间里面运动,那它在这块的感知能力不行,就这样就导致你让它来做动作的话,其实我是觉得,这条路挺危险的。
这段话的重点在于空间理解,用语言模型来强调确认空间关系,华为认为这是行不通的。
元戎启行周光坚定地认同 VLA 的价值,核心论点是:
VLA 把视觉、语言、动作统一在一个大模型里,天然具备解读语义、推理规则的能力,因此可以“看懂”而不是“记住”这些长尾情况。
VLA模型具备思维链(COT)能力,支持长时序推理。短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述。正是因为具备思维链(COT)能力,VLA 处理更复杂路况,更深层次的推理能力更加突出。
对于消费者来说,其实什么路线不重要,体验才最重要。目前已量产或开放 demo 体验的 VLA,我个人觉得在体验上还远远没有达到预期。反之,采用世界模型的 NOP+ 或者是 ADS 4 的早鸟版本体验,也或多或少出现了一些问题。
所以说,别争了,我们再过一两个季度再看看。