云霞育儿网

Mamba核心作者新作新注意力机制速度超越DeepSeek推理提速2倍还省内存?

Mamba核心作者新作新注意力机制速度超越DeepSeek

推理提速2倍还省内存?Mamba作者又整新活了。

Tri Dao团队刚发布两种专为推理设计的注意力机制:Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA)。它们在不牺牲模型生成质量的前提下,显著提升了解码速度和内存利用率,尤其适合长上下文场景。

团队在四种模型规模上测试了GTA和GLA,指标涵盖质量(困惑度、7个下游任务)与效率(解码延迟、吞吐量、KV缓存量)。结果显示:

- GTA在中大型模型中质量优于GQA;

- GLA与MLA在精度上相当,但效率更高;

- GLA在预填充长度32K、64K时的吞吐量明显领先;

- 并发处理能力也更强,能更好应对长文本和不均衡负载。