云霞育儿网

一篇针对AMD MI300x的FP8 GEMM（矩阵乘法）做性能优化的文章。ak

2025-06-05 13:37:01 蚁工厂科技

一篇针对AMD MI300x的FP8 GEMM（矩阵乘法）做性能优化的文章。

akashkarnatak.github.io/amd-challenge/

作者将解决方案分为三个主要部分：从全局内存加载数据到LDS（本地数据共享）、从LDS读取到寄存器并执行MFMA（矩阵融合乘加）操作，以及将数据存储回全局内存。关键优化包括LDS瓦片大小、块大小、调度策略等，并详细探讨了如何通过双缓冲、内存交错策略等技术提高性能。

阅读：0 点赞：0