云霞育儿网

DeepSeek概念持续退潮 Deepseek刚又发了一个论文,又加速了,不要只

DeepSeek概念持续退潮

Deepseek刚又发了一个论文,又加速了,不要只看炒股

这论文,似乎大意是说,大模型是为长文中的每个token都和另外的token建立关联,这没有必要。很多词只和少数别的词有关系,所以token之间的联系应该是sparse稀疏的,能节省计算事件。

如果能干出来,性能不降,那又能优化很多速度。

但是具体怎么实现,就需要和硬件配合,很高难度。这次deepseek似乎干出来了。