北大&小鹏汽车《EvoDriveVLA》论文，作者中出现了xianming，这套

北大&小鹏汽车《EvoDriveVLA》论文，作者中出现了xianming，这套训练方法有点意思，给大家做个小总结：

现在的端到端VLA模型训练有个通病——视觉编码器退化。简单说就是AI学开车学久了，原来能认猫狗、辨天气的"通用视力"反而变差，变成只会看车道线的"近视眼"。同时长程规划会累积误差，规划越远越跑偏。

论文提出了VLA模型的"双师教学"方案：协同感知-规划蒸馏框架，让AI同时拜两个老师。

老师1：自锚定视觉蒸馏（解决眼睛退化）

复制一个冻结的"原版AI"当锚点老师，用AnchorFormer模块，根据轨迹引导注意力给不同区域分配"锚定权重"。

比如前方有行人，那块区域就多盯着点，确保学生AI学开车时，别忘本。

老师2：Oracle引导轨迹蒸馏（解决规划跑偏）

训练时让AI"偷看"未来3秒的真实画面（特权信息）由粗到精优化：

先画个大概路线，再慢慢修正细节。蒙特卡洛丢弃采样：随机生成10条候选路线，选最优的教给学生，学生学的是"如果我能预知未来，我会怎么开"效果怎么样？

▶nuScenes开环测试：相比OpenDriveVLA，路线误差降21%，碰撞率降40%相比DiMA，误差再降9%

▶NAVSIM闭环测试：3B小模型PDM分数超8B大模型蒸馏后相对提升4.2%

我的看法：这套方法论不是直接给VLA2.0用的，但思路可以迁移。核心就一句话：好老师比堆参数更重要。

小鹏如果能把这个蒸馏框架落地到下一代VLA，智驾的泛化能力和稳定性应该还能再拔一截。毕竟现在各家都在卷端到端，谁能把"老师教学生"这套玩明白，谁就能省算力、提效果。

图片8是一图读懂，不喜欢看文字的同学，可以看图。

云霞资讯网