阿里云节省82%的GPU是怎么回事?针对多个大模型一起跑推理的情况这是北京大学和

烨华聊商业 2025-10-19 12:55:08

阿里云节省82%的GPU是怎么回事?针对多个大模型一起跑推理的情况

这是北京大学和阿里合作的论文《Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market》,刚在韩国SOSP 2025会议上发表。核心结论是,三个月测试,硬件量从1192 张H20降到 213 张,节省82%。

这里关键是,它解决的是特定的问题:面向大模型推理服务,而且是多模型并发推理场景下的资源浪费问题。阿里云在中国搞大模型推理服务很成功,许多家的大模型都在上面跑。其实大同小异,都是雷同的矩阵运算。

如果只跑一个模型,就有很高效的优化办法,把上一次输出一个token的中间结保留下来,下一次就不用从头算,如KV Cache就是必须用的。DeepSeek就是搞了几十倍加速的优化,但都是对一个模型的。如果是多个模型一起跑,虽然有个先来后到,但总不能太厚此薄彼,必须搞些“分片轮询”的机制,让各模型都能输出一些token。

实践中,模型分布是长尾的,90%以上的模型调用频率极低,但调用了仍需独占 GPU 资源,导致严重浪费。有时又很“热”,调用突发性强,需预留大量 GPU 应对峰值,进一步加剧资源碎片化。传统方案,如多路复用或请求级自动扩缩容,就是加GPU内存、增加调度粒度,每卡最多支持 2~3 个模型,无法充分释放 GPU 潜力。

论文提出“ Token 级自动扩缩容”(Token-Level Auto-Scaling),以 token 为单位进行模型切换和调度;显著降低头阻塞(Head-of-Line Blocking),提升并发能力。改进后,支持单卡同时服务多达 7 个模型,实现真正的GPU 池化。

为了这个效果,需要一些技术,如预填充阶段(Prefill)要采用特殊的分组策略,优化首 token 延迟。在解码阶段,采用加权轮询调度,优化 token 间延迟。明确分离预填充与解码任务,避免相互干扰,提升整体吞吐量。组件复用、显式内存管理、KV Cache 同步优化,将扩缩容开销降低 97%;实现 毫秒级模型热切换,支持 token 级抢占;引入模型预取与 统一 KV Cache 管理,显著减少加载延迟与内存碎片。

都是一些技术细节。但最大的意义是,这是对多个模型在一个卡池里混跑推理的情况,提升了GPU利用效率。但对于一个模型独占算力跑推理,以及训练,这个论文里的技术就不适用。

新闻里说对GPU算力股构成利空,多少有一些。但感觉不是很大的利空,因为真正有实力的公司还是会独占大算力来跑的,不会和别家的大模型混着用。

0 阅读:28
烨华聊商业

烨华聊商业

感谢大家的关注