Mixture-of-Experts（MoE）正在驱动R1、K2、Qwen3等前

Mixture-of-Experts（MoE）正在驱动R1、K2、Qwen3等前沿大模型，Tilde开源了MoMoE——一款高性能MoE训练与推理实现，显著超越现有最快方案：

• 推理吞吐提升70%，训练吞吐提升20%，内存使用降低90%及以上

• 解决传统开源MoE内核因Python控制流、token批处理低效、内存访问不优等瓶颈

• 采用双核前向实现：融合gather、投影、SwiGLU，及高效BF16散射+归约求和

• 反向传播支持灵活配置，首次实现生产级分段重计算，平衡训练速度与内存消耗

• 数值精度与PyTorch基线一致，FLOP等价预训练表现优于等量密集模型

• 开放源码，推动MoE社区研究与应用创新，算法与硬件深度协同设计典范

MoMoE代表了大规模MoE模型训练推理的性能与效率新标杆，具备长期研究和工业应用价值。

🔗 github.com/tilde-research/MoMoE-impl/tree/main

MixtureOfExperts 大模型深度学习开源 AI训练模型推理

云霞育儿网