Ashok在ICCV分享的特斯拉端到端模型，到底是什么架构，它是不是VLA，其实

Ashok在ICCV分享的特斯拉端到端模型，到底是什么架构，它是不是VLA，其实从他的发言中就能分辨出来，贴个更准确的中文翻译吧：（*标是重点）

端到端系统并不意味着它无法预测其他信息。同一个模型可以被触发预测各类内容，包括：

目标占用情况、其他物体、交通信号灯、交通标志

道路边界

甚至可以用自然语言解释其做出某项决策的原因，以及它是否理解当前场景等等

所有这些功能都有助于理解模型对场景的认知，同时也能为整个系统的安全性提供一定保障。

在实际应用中，流程大致是这样的：

输入车载传感器数据，触发模型生成各类信息。

*但最终对车辆而言，真正重要的只有它输出的控制指令，其他信息均为辅助数据 —— 但这些辅助数据对生成正确的控制指令大有帮助。

我想重点介绍的一项技术是 “高斯溅射（Gaussian Splatting）”，它在过去几年里已成为该领域的热门技术。

左侧展示的是传统的高斯溅射技术。大家可能觉得效果很差，但我并非刻意挑选负面案例 —— 传统高斯溅射的核心问题在于：车辆通常沿直线行驶，其运动基线数据有限。

因此，若仅利用车辆运动过程中的相同摄像头视角，运行传统高斯溅射算法（比如使用 Nerfstudio 等工具），虽然接近训练视角的画面效果很好，但一旦切换到远离训练视角的新视角，效果就会大幅下降。

而中间这一列展示的是特斯拉改进版的高斯溅射技术：同一个模型生成的高斯分布效果要好得多。即便使用与左侧相同的有限摄像头视角，它依然能输出更优结果，且如第三列所示，还能生成语义信息。

更出色的是，相比传统协同溅射技术，特斯拉改进版的运行速度极快。传统技术不仅需要数十分钟的处理时间，还需通过 “调用地图” 等步骤获取摄像头位姿，并且依赖这类显式求解器进行初始化才能保证效果。

因此，使用特斯拉改进版技术，能够快速实现场景更新。若采用传统溅射技术，许多新视角下的画面可能会模糊或失真；但在 3D 空间中旋转视角时，特斯拉技术生成的画面结构依然保持完整。

这种可解释的表征形式可用于系统调试：比如观察车辆行驶速度快慢时，能轻松判断它是否在安全避让障碍物。

*正如前文所说，我们还可以通过自然语言与模型交互：同一个模型可以指向特定物体，解释其决策原因。

虽然实时驾驶时不一定需要这些功能，但当需要时，模型可以花费更多时间生成推理标记，进而输出与整体推理逻辑一致的正确动作。

*而且，这依然是车载运行的同一个模型 —— 它会根据场景需求决定是否启用推理功能：若无需复杂推理，便直接输出控制指令；若每次决策都要进行详细推理，会导致延迟过高。

0 阅读：0

马斯克又被粉了一波！特斯拉又走在了行业前面，首次官宣可以为特斯拉车主免费更换