阿里云节省82%的GPU是怎么回事？针对多个大模型一起跑推理的情况这是北京大学和

阿里云节省82%的GPU是怎么回事？针对多个大模型一起跑推理的情况

这是北京大学和阿里合作的论文《Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market》，刚在韩国SOSP 2025会议上发表。核心结论是，三个月测试，硬件量从1192 张H20降到 213 张，节省82%。

这里关键是，它解决的是特定的问题：面向大模型推理服务，而且是多模型并发推理场景下的资源浪费问题。阿里云在中国搞大模型推理服务很成功，许多家的大模型都在上面跑。其实大同小异，都是雷同的矩阵运算。

如果只跑一个模型，就有很高效的优化办法，把上一次输出一个token的中间结保留下来，下一次就不用从头算，如KV Cache就是必须用的。DeepSeek就是搞了几十倍加速的优化，但都是对一个模型的。如果是多个模型一起跑，虽然有个先来后到，但总不能太厚此薄彼，必须搞些“分片轮询”的机制，让各模型都能输出一些token。

实践中，模型分布是长尾的，90%以上的模型调用频率极低，但调用了仍需独占 GPU 资源，导致严重浪费。有时又很“热”，调用突发性强，需预留大量 GPU 应对峰值，进一步加剧资源碎片化。传统方案，如多路复用或请求级自动扩缩容，就是加GPU内存、增加调度粒度，每卡最多支持 2~3 个模型，无法充分释放 GPU 潜力。

论文提出“ Token 级自动扩缩容”（Token-Level Auto-Scaling），以 token 为单位进行模型切换和调度；显著降低头阻塞（Head-of-Line Blocking），提升并发能力。改进后，支持单卡同时服务多达 7 个模型，实现真正的GPU 池化。

为了这个效果，需要一些技术，如预填充阶段（Prefill）要采用特殊的分组策略，优化首 token 延迟。在解码阶段，采用加权轮询调度，优化 token 间延迟。明确分离预填充与解码任务，避免相互干扰，提升整体吞吐量。组件复用、显式内存管理、KV Cache 同步优化，将扩缩容开销降低 97%；实现毫秒级模型热切换，支持 token 级抢占；引入模型预取与统一 KV Cache 管理，显著减少加载延迟与内存碎片。

都是一些技术细节。但最大的意义是，这是对多个模型在一个卡池里混跑推理的情况，提升了GPU利用效率。但对于一个模型独占算力跑推理，以及训练，这个论文里的技术就不适用。

新闻里说对GPU算力股构成利空，多少有一些。但感觉不是很大的利空，因为真正有实力的公司还是会独占大算力来跑的，不会和别家的大模型混着用。

0 阅读：28

阿里云节省82%的GPU是怎么回事？针对多个大模型一起跑推理的情况这是北京大学和

美国同意英伟达的芯片只要回到国内建厂，就能卖给中国。一出政策，中国立马反击：只要

英伟达CEO黄仁勋接连在台北电脑展和媒体专访里“爆料”：拜登政府刚上台那阵，英伟

突发！英伟达向阿联酋供应AI芯片交易陷停滞，百亿订单成废纸。有便宜的谁用贵的。就

新凯来第一次亮相后，有人问台积电前研发负责人，浸润式光刻机发明者林本坚，中国大陆

达子退场，国产沐曦GPU芯片强势登陆，国产替代只是“小荷才露尖尖角”。以下是一

美光存储芯片被禁止进入东大所有的服务器、数据中心、AI计算中心，不分民营和国有

快报，快报英伟达正式宣布了当地时间10月17日，英伟达创始人黄仁勋与台积

阿里云节省82%的GPU是怎么回事？针对多个大模型一起跑推理的情况这是北京大学和

美国同意英伟达的芯片只要回到国内建厂，就能卖给中国。一出政策，中国立马反击：只要

英伟达CEO黄仁勋接连在台北电脑展和媒体专访里“爆料”：拜登政府刚上台那阵，英伟

突发！英伟达向阿联酋供应AI芯片交易陷停滞，百亿订单成废纸。有便宜的谁用贵的。就

新凯来第一次亮相后，有人问台积电前研发负责人，浸润式光刻机发明者林本坚，中国大陆

达子退场，国产沐曦GPU芯片强势登陆，国产替代只是“小荷才露尖尖角”。以下是一

美光存储芯片被禁止进入东大所有的服务器、数据中心、AI计算中心，不分民营和国有

快报，快报英伟达正式宣布了​当地时间10月17日，英伟达创始人黄仁勋与台积

快报，快报英伟达正式宣布了当地时间10月17日，英伟达创始人黄仁勋与台积