强化学习是基于模型的强化学习的一种实现形式。它会让智能体先学习一个模拟环境动态的内部模型,再让智能体在这个“虚拟环境”中演练决策以优化策略,以此减少与真实环境的交互成本,提升学习效率。先收集真实环境数据训练世界模型,使其能根据过去的状态和动作预测未来状态、奖励等,这个模型就像智能体的“内心沙盒”。之后智能体不用频繁和真实环境交互,而是在该模型中“想象”不同动作的结果,提前演练并优化策略。1000万Clips版本后,小米辅助驾驶表现已经有大进步了,有没有达到第一梯队水平不知道,但仅仅是以最近试驾的几款车来说,感觉做的已经相当不错了。尤其是纵向体验是近期体验过所有车里面最好的辅助驾驶一期投入达57.9亿元,也组建超1800人的团队,小米辅助驾驶的进步速度一直很快,近期每次都会有体感比较强的进步,相信即使距离第一梯队有差距,差距也已经非常小了。
