Ashok在ICCV分享的特斯拉端到端模型,到底是什么架构,它是不是VLA,其实

梦香评汽车啊 2025-10-23 23:41:44

Ashok在ICCV分享的特斯拉端到端模型,到底是什么架构,它是不是VLA,其实从他的发言中就能分辨出来,贴个更准确的中文翻译吧:(*标是重点)

端到端系统并不意味着它无法预测其他信息。同一个模型可以被触发预测各类内容,包括:

目标占用情况、其他物体、交通信号灯、交通标志

道路边界

甚至可以用自然语言解释其做出某项决策的原因,以及它是否理解当前场景等等

所有这些功能都有助于理解模型对场景的认知,同时也能为整个系统的安全性提供一定保障。

在实际应用中,流程大致是这样的:

输入车载传感器数据,触发模型生成各类信息。

*但最终对车辆而言,真正重要的只有它输出的控制指令,其他信息均为辅助数据 —— 但这些辅助数据对生成正确的控制指令大有帮助。

我想重点介绍的一项技术是 “高斯溅射(Gaussian Splatting)”,它在过去几年里已成为该领域的热门技术。

左侧展示的是传统的高斯溅射技术。大家可能觉得效果很差,但我并非刻意挑选负面案例 —— 传统高斯溅射的核心问题在于:车辆通常沿直线行驶,其运动基线数据有限。

因此,若仅利用车辆运动过程中的相同摄像头视角,运行传统高斯溅射算法(比如使用 Nerfstudio 等工具),虽然接近训练视角的画面效果很好,但一旦切换到远离训练视角的新视角,效果就会大幅下降。

而中间这一列展示的是特斯拉改进版的高斯溅射技术:同一个模型生成的高斯分布效果要好得多。即便使用与左侧相同的有限摄像头视角,它依然能输出更优结果,且如第三列所示,还能生成语义信息。

更出色的是,相比传统协同溅射技术,特斯拉改进版的运行速度极快。传统技术不仅需要数十分钟的处理时间,还需通过 “调用地图” 等步骤获取摄像头位姿,并且依赖这类显式求解器进行初始化才能保证效果。

因此,使用特斯拉改进版技术,能够快速实现场景更新。若采用传统溅射技术,许多新视角下的画面可能会模糊或失真;但在 3D 空间中旋转视角时,特斯拉技术生成的画面结构依然保持完整。

这种可解释的表征形式可用于系统调试:比如观察车辆行驶速度快慢时,能轻松判断它是否在安全避让障碍物。

*正如前文所说,我们还可以通过自然语言与模型交互:同一个模型可以指向特定物体,解释其决策原因。

虽然实时驾驶时不一定需要这些功能,但当需要时,模型可以花费更多时间生成推理标记,进而输出与整体推理逻辑一致的正确动作。

*而且,这依然是车载运行的同一个模型 —— 它会根据场景需求决定是否启用推理功能:若无需复杂推理,便直接输出控制指令;若每次决策都要进行详细推理,会导致延迟过高。

0 阅读:0
梦香评汽车啊

梦香评汽车啊

感谢大家的关注