云端训练 和 云端大模型蒸馏 的区别?
用类似 DeepSeek 的蒸馏方案和部署一个小模型的区别。
其实在 ds 之前,我们就经常能够听到,云端算力、云端训练、云端模型 之类的 云端。
但为什么 ds 出来时候,大家会发现 ds 的性能要远远好于其他大语言模型。
这里面要区分,云端训练 和 云端模型蒸馏。
简单理解就是,云端训练是字面意思,主要是指在云端训练一个 1 - 5B 的模型,然后部署到车端。
这里其实核心内含是,云端差不多训练什么样,车端就是什么样。
但云端大模型的蒸馏是指,蒸馏出来的小模型对云端大模型核心能力的继承。
它的本质是,继承最核心的那部分能力。
所以云端模型越大,训练的数据量越多,模型性能越强,那么你蒸馏出来的能力就会越强。
这个比较抽象,到目前其实还是不容易理解。
举个例子:
猴哥学了 72 变,那猴哥这个模型其实只会 72 变,因为他就学了这个,在山上学,在山下用。
但总归还是菩提老祖教的。
但你试想一下,如果菩提老祖的分身下山,那就不是会 72 变,他就是菩提老祖 核心能力只是做了些许裁切。
西游记后传的 『无天』 和 仙剑里的 『邪剑仙』,其实都是蒸馏模型,法力也牛逼。
如果不是导演要求,掀翻 6 界问题不大。
叠个甲,个人理解错了请指正。