Mamba核心作者新作新注意力机制速度超越DeepSeek推理提速2倍还省内存？

Mamba核心作者新作新注意力机制速度超越DeepSeek

推理提速2倍还省内存？Mamba作者又整新活了。

Tri Dao团队刚发布两种专为推理设计的注意力机制：Grouped-Tied Attention（GTA）和Grouped Latent Attention（GLA）。它们在不牺牲模型生成质量的前提下，显著提升了解码速度和内存利用率，尤其适合长上下文场景。

团队在四种模型规模上测试了GTA和GLA，指标涵盖质量（困惑度、7个下游任务）与效率（解码延迟、吞吐量、KV缓存量）。结果显示：

- GTA在中大型模型中质量优于GQA；

- GLA与MLA在精度上相当，但效率更高；

- GLA在预填充长度32K、64K时的吞吐量明显领先；

- 并发处理能力也更强，能更好应对长文本和不均衡负载。

阅读：10 点赞：0

云霞育儿网