今天我们聊聊最近很火的两条技术路线:华为乾崑自研的WEWA架构,以及业内常提到的VLA架构。
到底有什么不同?优势在哪里?未来谁能赢?
1. 为什么会出现两条路线?
过去的自动驾驶基本靠“感知-预测-规划-控制”的流水线,问题是模块太多,信息损耗严重,遇到复杂场景很难端到端最优。
于是,端到端大模型兴起,希望通过规模化学习解决问题。
但端到端训练的本质是模仿人类分布,容易学成“平均司机”,对极端情况没法很好处理。于是分出了两派:
一派走VLA,想通过语言统一不同模态,让模型更聪明;
另一派走世界模型,把重点放在物理推演和强化学习,追求可验证和安全优先。
2. 历史由来清楚了,这两个技术的差异在哪里呢?
VLA,全称 Vision–Language–Action。它的思路是,把车看到的画面和传感器数据先翻译成语言或符号,再让大模型去推理,最后给出车辆的行动。它的核心是语义统一,好处是理解能力强,能看懂规则、路标,甚至交互语境。
WEWA,全称 World Engine–World Action。华为的想法是,直接用世界模型来推演未来。云端的世界引擎会不断生成和筛选各种复杂场景,车端的世界行为模型则负责预测几秒后的环境状态,然后直接做决策。中间没有语言环节,避免了把几何和时空信息抽象成文字时的精度损失。
3. 这么一对比,差异就很清晰了:
VLA像是个语言翻译官,适合做语义和规则解释;
WEWA更像个物理推演器,直接预测世界的未来状态,更贴近真实驾驶需求。
WEWA的强项在于,它能用生成式AI系统性制造各种极端场景,再通过强化学习不断补齐长尾问题。简单说,就是“先出真难题,再逼着车学会”。这样一来,长尾风险能被更快覆盖。
VLA的强项则在于“懂语义”,对交互和解释友好。比如,为什么车要这么做,VLA可以解释得更自然。但语言模型擅长文本推理,却缺乏对三维空间的精确感知与运动推演能力。车竟是在真实空间中运动的物体,毫厘之差可能就意味着风险。
4. 如果从市场角度看,短期内更有机会的是WEWA。
理由有三:
第一,车规安全要求高,监管和用户最看重的是稳和可验证。WEWA的物理一致性和场景推演更容易拿到安全背书。
第二,华为已经形成百万级装车规模,结合车队数据和云端仿真,可以做到月度迭代,这让它的闭环效率更高。
第三,用户付费意愿往往建立在“能避免事故”这种硬指标上。WEWA能直接展示事故率下降、介入率降低,这比单纯讲AI能力更有说服力。
5. 路线之争向来是水火无情,WEWA和VLA会你死我活吗?是VLA是不是有没有未来?
当然有。作为“控车大脑”,它还需要解决几何精度和时延问题。但它在座舱交互、语义理解、人机共驾这些方向上,会逐渐显现价值。所以WEWA更快进入规模落地,安全和商业价值更清晰;未来,WEWA做底座,VLA做增强,或许也是不错的选择。小吕飞驰圈[超话]