对话任少卿｜新版本背后，其实是蔚来一个新技术体系的思考。前几天有一个特别的机会，

对话任少卿｜新版本背后，其实是蔚来一个新技术体系的思考。前几天有一个特别的机会，和少卿做了一次非常深度的分享，也从未有过。少卿梳理整个蔚来技术的架构，讨论NWM 2.0为什么重要，当下蔚来认为最重要的思考是什么。相较于体验有哪些提升，我觉得这次更重要是蔚来进入一个新的技术架构上，这里面最重要的名字就是闭环的强化学习。和大家分享一些感受。1、少卿把整个智驾划分三个时代。第一个时代叫 code 1.0 ，就是规则时代。不同时代之间有个简单的比喻，比如我们要进入左转车道，code 1.0 就是通过 300 米先变，200米再变，最后进入左转车道，这里面全部是手写的规则去实现，如果有障碍车车道，那就手写一些逻辑套上去。少卿还在现场把这个图画了出来。规则时代其实非常好出效果，也能不断套逻辑，但是问题也是因为这里，逻辑走到最后就会产生冲突，你引入新的逻辑就会和旧逻辑冲突，代码量也会过重。 code 2.0 叫数据驱动时代。也就是写不动的场景就不靠写规则了，就看人怎么开，模型就学着怎么开。让模型学习，就叫数据驱动。但这个阶段模型会有一个惰性。数据驱动本身要看数据的分布，就是不同人有不同开法，那模型就要在中间取一个中间值，但是这个平均值放到真实场景中不一定是最好的。这里面最典型的体验就是识别行人、或者窄路博弈的时候，模型大多选择的平均值是非常保守的跟随，不绕行，不变道，非常保守，和人的开车习惯相违背。这时候行业解决这个难题有几个方式：第一个是加SD+导航。就是让导航约束模型怎么走，不会让你瞎变。第二是就是加老司机的数据，这是一个比较偷懒的方式。相当于你把数据筛选不出来的场景，就找很多司机开一遍，把这个数据变成黄金数据，就是最像人的数据，模型自然就走好。模型去跟随老司机的轨迹走，这个时候一来解决数据“脏”的问题，二来和数据筛选的问题，这两个问题大家记住比较重要，我们后面会讲。当然他们的问题也比较显性，第一是高昂的成本，特别是老司机，第二是非常难的泛化性，学完这个学那个，如果没学过系统同样不会。少卿直说，这几个路径蔚来从没有走过，也花过这笔钱。而第三个阶段，就是蔚来要做的强化学习，叫reward，本身就是一次奖励。无论老司机数据还是加导航，很核心的问题就是没解决数据和真实世界应用之间的一种矛盾关系。强化学习就改变了这种矛盾，把“好坏判断” 变成一个可量化的信号，变成一种奖励函数，以前我们 “教模型怎么做” ，强化学习就是 “教模型怎么判断好坏并自我优化，自己知道怎么做”，最终实现和人类意图的深度对齐。这个方法论和演进方式其实和大语言模型的演进很类似。2、那蔚来为什么选择强化学习，能解决什么问题。上面我们提到大家要解决的问题是，数据量大，但是很脏的问题，第二是筛选，老司机的学习其实大家只筛选了符合人类驾驶期望的数据，其他的无论有没有价值的东西都被丢了。脏比较好理解，就是不同人开车习惯不一样，有一些不好的习惯。筛选的难题在于容易出现要么丢多了，要么丢少了的问题。比如小路就是车要去挤，那如果距离比较近的，比如30cm以下这种数据你要不要丢？如果丢了，那小路一旦遇到太近的场景，系统就是解决不了。强化学习，是解决这两个问题的第一步。首先是把量产数据用起来，大家都知道数据脏，但是你还是要吃进肚子里，还能把它消化好，这是蔚来整个技术变革的内核：（1）强化学习不需要增量数据，也不需要套很厚重的规则。就是构建一个仿真环境，设定一条目标，车辆成功越过就奖励，用时越短奖励越高。那背后它是怎么变的，不管，都是模型自己在仿真中探索解决。这个模型其实非常简单，不需要老司机数据，也不需要加规则，从训练成本看少卿说NWM第一个版本大约是同行的1/5到1/10，下一个版本数据规模拉上去后体验会有不同。（2）通过奖励的方式，改变了脏数据的干扰。奖励函数就是可以把脏东西，最早开始提前做了过滤。比如决策一个变道，就不会有模仿老司机中带来的平均分布的问题，而是直接给出一个最佳决策，好的行为倾向会优先被选中。因为强化学习是在一个云端的闭环环境里学习的，比如之前说的30cm小路的问题，那模型就要自己学习一个任务下可能发生的 0 、20cm、30cm等的可能性，强化学习会把一个任务的各个阶段重组，直接生成一条当下最好的轨迹。这个语言模型的发展比较像，早起的GPT用了互联网数据，就是因为脏数据导致很多上下文逻辑混乱的问题。而语言模型进入强化学习后，就不是遇问题加规则，或者加数据，而是给你打分。这样语言模型在逻辑性和答案适应性上是收敛的，可以自然问答。（3）第三是进化，比如NWM 2.5、或者未来的3.0，都是可预期的。强化学习的进化可以看很远，其实就是靠更多的量产数据，然后吃到数据scale的红利，反馈到体验本身。比如用户介入接管的数据，就可以做一个强化学习的判断，为什么人这条好的轨迹没学到。可以把人驾这条轨迹加入到预训练模型的数据集里，让模型学习人类的行为。所以接下来我们的看到的蔚来，无论是数据规模还是算力，都有一些新的进展，这些算力第一更能把“脏数据”用起来，能够接受更多“脏原始数据”。按照少卿的话说就是吃多了，不拉肚子，还长肉。3、那VLA，蔚来会怎么看？ VLA 中大语言语料是最快获得，且成本很低的，因为都是现成的。但少卿认为无论是vision也好，language也好，其实它们训练数据量并不多，距离我们真实环境的数据还差的很远，对真实物理世界有天生的缺。如果用大量的视频去训练它，意味着额外的算力会更高，不是现在最高效的路径。少卿说了第二个路径。就是直接利用海量视频数据来训练自动驾驶或机器人的技术模型，这个模型不一定以来语言模型，但是它会带来更好的收益。大语言的发展也很类似，早期翻译依赖的数据集，本质上和专家数据很像。但当互联网海量数据替代了数据集后，虽然带来了一些问题，但模型整体能力得到了大幅提升。对于真实世界的应用，这个路径理论也是类似的，现在要做的就是找到比专家数据更大，大到几十倍到百倍的量产数据，拥有这个方法，就找到一个新的天花板。4、不同技术路线其实并不冲突，本质上是一个坑里挖到更多的金子。我问了一个问题，大概是为什么大家迭代的技术范式这么快，啥时候大家能看到头，就是把性能体验和稳定性做的更好，不是跷跷板。少卿回答是当一个范式接近其S形曲线的后半段时，付出的代价与获得的提升就不成比例了，就开始把“重”的部分替换掉，换上一套新东西，让能力曲线再往上爬一层。所以不同范式上都不冲突，只不过过去我们规则用了3，数据驱动是2，强化学习是1，现在把规则缩减成十分之一，2是减少专家数据的依赖，和高成本。而强化学习用的更重，在一个“坑”里挖了一年挖不动时，就换个思路，再去撬更多的“金子”。而对于蔚来来说，无论什么方式谁能将数据规模进一步提升，谁就能吃到下一个数据 scale 的红利。蔚来蔚来智驾蔚来世界模型全新版本发布

云霞资讯网

对话任少卿｜新版本背后，其实是蔚来一个新技术体系的思考。前几天有一个特别的机会，

热门分类