云霞育儿网

Mixture-of-Experts(MoE)正在驱动R1、K2、Qwen3等前

Mixture-of-Experts(MoE)正在驱动R1、K2、Qwen3等前沿大模型,Tilde开源了MoMoE——一款高性能MoE训练与推理实现,显著超越现有最快方案:

• 推理吞吐提升70%,训练吞吐提升20%,内存使用降低90%及以上

• 解决传统开源MoE内核因Python控制流、token批处理低效、内存访问不优等瓶颈

• 采用双核前向实现:融合gather、投影、SwiGLU,及高效BF16散射+归约求和

• 反向传播支持灵活配置,首次实现生产级分段重计算,平衡训练速度与内存消耗

• 数值精度与PyTorch基线一致,FLOP等价预训练表现优于等量密集模型

• 开放源码,推动MoE社区研究与应用创新,算法与硬件深度协同设计典范

MoMoE代表了大规模MoE模型训练推理的性能与效率新标杆,具备长期研究和工业应用价值。

🔗 github.com/tilde-research/MoMoE-impl/tree/main

MixtureOfExperts 大模型 深度学习 开源 AI训练 模型推理