云霞育儿网

云端训练 和 云端大模型蒸馏 的区别?用类似 DeepSeek 的蒸馏方案和部

云端训练 和 云端大模型蒸馏 的区别?

用类似 DeepSeek 的蒸馏方案和部署一个小模型的区别。

其实在 ds 之前,我们就经常能够听到,云端算力、云端训练、云端模型 之类的 云端。

但为什么 ds 出来时候,大家会发现 ds 的性能要远远好于其他大语言模型。

这里面要区分,云端训练 和 云端模型蒸馏。

简单理解就是,云端训练是字面意思,主要是指在云端训练一个 1 - 5B 的模型,然后部署到车端。

这里其实核心内含是,云端差不多训练什么样,车端就是什么样。

但云端大模型的蒸馏是指,蒸馏出来的小模型对云端大模型核心能力的继承。

它的本质是,继承最核心的那部分能力。

所以云端模型越大,训练的数据量越多,模型性能越强,那么你蒸馏出来的能力就会越强。

这个比较抽象,到目前其实还是不容易理解。

举个例子:

猴哥学了 72 变,那猴哥这个模型其实只会 72 变,因为他就学了这个,在山上学,在山下用。

但总归还是菩提老祖教的。

但你试想一下,如果菩提老祖的分身下山,那就不是会 72 变,他就是菩提老祖 核心能力只是做了些许裁切。

西游记后传的 『无天』 和 仙剑里的 『邪剑仙』,其实都是蒸馏模型,法力也牛逼。

如果不是导演要求,掀翻 6 界问题不大。

叠个甲,个人理解错了请指正。