对话任少卿|新版本背后,其实是蔚来一个新技术体系的思考。前几天有一个特别的机会,和少卿做了一次非常深度的分享,也从未有过。少卿梳理整个蔚来技术的架构,讨论NWM 2.0为什么重要,当下蔚来认为最重要的思考是什么。相较于体验有哪些提升,我觉得这次更重要是蔚来进入一个新的技术架构上,这里面最重要的名字就是闭环的强化学习。和大家分享一些感受。1、少卿把整个智驾划分三个时代。 第一个时代叫 code 1.0 ,就是规则时代。 不同时代之间有个简单的比喻,比如我们要进入左转车道,code 1.0 就是通过 300 米先变,200米再变,最后进入左转车道,这里面全部是手写的规则去实现,如果有障碍车车道,那就手写一些逻辑套上去。少卿还在现场把这个图画了出来。 规则时代其实非常好出效果,也能不断套逻辑,但是问题也是因为这里,逻辑走到最后就会产生冲突,你引入新的逻辑就会和旧逻辑冲突,代码量也会过重。 code 2.0 叫数据驱动时代。也就是写不动的场景就不靠写规则了,就看人怎么开,模型就学着怎么开。让模型学习,就叫数据驱动。 但这个阶段模型会有一个惰性。数据驱动本身要看数据的分布,就是不同人有不同开法,那模型就要在中间取一个中间值,但是这个平均值放到真实场景中不一定是最好的。 这里面最典型的体验就是识别行人、或者窄路博弈的时候,模型大多选择的平均值是非常保守的跟随,不绕行,不变道,非常保守,和人的开车习惯相违背。 这时候行业解决这个难题有几个方式: 第一个是加SD+导航。就是让导航约束模型怎么走,不会让你瞎变。 第二是就是加老司机的数据,这是一个比较偷懒的方式。相当于你把数据筛选不出来的场景,就找很多司机开一遍,把这个数据变成黄金数据,就是最像人的数据,模型自然就走好。 模型去跟随老司机的轨迹走,这个时候一来解决数据“脏”的问题,二来和数据筛选的问题,这两个问题大家记住比较重要,我们后面会讲。 当然他们的问题也比较显性,第一是高昂的成本,特别是老司机,第二是非常难的泛化性,学完这个学那个,如果没学过系统同样不会。少卿直说,这几个路径蔚来从没有走过,也花过这笔钱。 而第三个阶段,就是蔚来要做的强化学习,叫reward,本身就是一次奖励。 无论老司机数据还是加导航,很核心的问题就是没解决数据和真实世界应用之间的一种矛盾关系。 强化学习就改变了这种矛盾,把“好坏判断” 变成一个可量化的信号,变成一种奖励函数,以前我们 “教模型怎么做” ,强化学习就是 “教模型怎么判断好坏并自我优化,自己知道怎么做”,最终实现和人类意图的深度对齐。 这个方法论和演进方式其实和大语言模型的演进很类似。2、那蔚来为什么选择强化学习,能解决什么问题。 上面我们提到大家要解决的问题是,数据量大,但是很脏的问题,第二是筛选,老司机的学习其实大家只筛选了符合人类驾驶期望的数据,其他的无论有没有价值的东西都被丢了。 脏比较好理解,就是不同人开车习惯不一样,有一些不好的习惯。筛选的难题在于容易出现要么丢多了,要么丢少了的问题。比如小路就是车要去挤,那如果距离比较近的,比如30cm以下这种数据你要不要丢?如果丢了,那小路一旦遇到太近的场景,系统就是解决不了。 强化学习,是解决这两个问题的第一步。 首先是把量产数据用起来,大家都知道数据脏, 但是你还是要吃进肚子里,还能把它消化好,这是蔚来整个技术变革的内核: (1)强化学习不需要增量数据,也不需要套很厚重的规则。 就是构建一个仿真环境,设定一条目标,车辆成功越过就奖励,用时越短奖励越高。那背后它是怎么变的,不管,都是模型自己在仿真中探索解决。 这个模型其实非常简单,不需要老司机数据,也不需要加规则,从训练成本看少卿说NWM第一个版本大约是同行的1/5到1/10,下一个版本数据规模拉上去后体验会有不同。 (2)通过奖励的方式,改变了脏数据的干扰。 奖励函数就是可以把脏东西,最早开始提前做了过滤。比如决策一个变道,就不会有模仿老司机中带来的平均分布的问题,而是直接给出一个最佳决策,好的行为倾向会优先被选中。 因为强化学习是在一个云端的闭环环境里学习的,比如之前说的30cm小路的问题,那模型就要自己学习一个任务下可能发生的 0 、20cm、30cm等的可能性,强化学习会把一个任务的各个阶段重组,直接生成一条当下最好的轨迹。 这个语言模型的发展比较像,早起的GPT用了互联网数据,就是因为脏数据导致很多上下文逻辑混乱的问题。而语言模型进入强化学习后,就不是遇问题加规则,或者加数据,而是给你打分。这样语言模型在逻辑性和答案适应性上是收敛的,可以自然问答。 (3)第三是进化,比如NWM 2.5、或者未来的3.0,都是可预期的。 强化学习的进化可以看很远,其实就是靠更多的量产数据,然后吃到数据scale的红利,反馈到体验本身。 比如用户介入接管的数据,就可以做一个强化学习的判断,为什么人这条好的轨迹没学到。可以把人驾这条轨迹加入到预训练模型的数据集里,让模型学习人类的行为。 所以接下来我们的看到的蔚来,无论是数据规模还是算力,都有一些新的进展,这些算力第一更能把“脏数据”用起来,能够接受更多“脏原始数据”。按照少卿的话说就是吃多了,不拉肚子,还长肉。3、那VLA,蔚来会怎么看? VLA 中大语言语料是最快获得,且成本很低的,因为都是现成的。但少卿认为无论是vision也好,language也好,其实它们训练数据量并不多,距离我们真实环境的数据还差的很远,对真实物理世界有天生的缺。如果用大量的视频去训练它,意味着额外的算力会更高,不是现在最高效的路径。 少卿说了第二个路径。就是直接利用海量视频数据来训练自动驾驶或机器人的技术模型,这个模型不一定以来语言模型,但是它会带来更好的收益。 大语言的发展也很类似,早期翻译依赖的数据集,本质上和专家数据很像。但当互联网海量数据替代了数据集后,虽然带来了一些问题,但模型整体能力得到了大幅提升。对于真实世界的应用,这个路径理论也是类似的,现在要做的就是找到比专家数据更大,大到几十倍到百倍的量产数据,拥有这个方法,就找到一个新的天花板。4、不同技术路线其实并不冲突,本质上是一个坑里挖到更多的金子。 我问了一个问题,大概是为什么大家迭代的技术范式这么快,啥时候大家能看到头,就是把性能体验和稳定性做的更好,不是跷跷板。 少卿回答是当一个范式接近其S形曲线的后半段时,付出的代价与获得的提升就不成比例了,就开始把“重”的部分替换掉,换上一套新东西,让能力曲线再往上爬一层。 所以不同范式上都不冲突,只不过过去我们规则用了3,数据驱动是2,强化学习是1,现在把规则缩减成十分之一,2是减少专家数据的依赖,和高成本。而强化学习用的更重,在一个“坑”里挖了一年挖不动时,就换个思路,再去撬更多的“金子”。 而对于蔚来来说,无论什么方式谁能将数据规模进一步提升,谁就能吃到下一个数据 scale 的红利。蔚来蔚来智驾蔚来世界模型全新版本发布


