AWS发布全新AI芯片Trainium3：性能提升4.4倍！

当地时间12月2日，亚马逊云计算部门（AWS，Amazon Web Services）的年度技术盛会“re:Invent 2025”在美国拉斯维加斯正式开幕。在此次会议上，AWS正式发布了新一代自研AI芯片Trainium3，以及为下一代AI 工作负载打造的Trainium3 UltraServers，同时还公布了Trainium4 路线图。

众所周知，为了满足自身需求及降低成本，亚马逊、谷歌等众多云服务大厂在数年前就已经开始了自研云端AI芯片。根据亚马逊AWS公布的信息显示，目前其定制芯片业务规模已达数十亿美元，Trainium系列芯片全球部署总量突破100万张，成为支撑超大规模AI计算的核心支柱，在全球云厂商自研芯片中仅次于谷歌TPU。

具体来说，Trainium 3 基于台积电3nm制程工艺，单芯片可提供2.52 PFLOPs（FP8）算力，支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。同时，该芯片还将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s，同时强化结构化稀疏性和微缩放硬件支持，进一步优化大语言模型训练与推理效率。

AWS表示，Trainium 3有望将AI模型全生命周期成本整体降低50%，可以为客户带来更高的性价比AI算力服务。

同时，AWS还推出了基于全新一代Neuron Fabric互联技术的Trainium3 UltraServers，最多可以将144颗Trainium3 整合在单一系统中总算力达362 FP8 PFLOPs。

△Trainium3 UltraServers

根据AWS的说法，相较上一代的Trainium2 UltraServers，全新的Trainium3 UltraServers 的原始性能提升了4.4倍，性能功耗比提升4倍，整体能源效率提升40%。实测数据显示，部署主流开源模型（如 GPT-OSS）时，单芯片吞吐量提升3倍，响应延迟缩短4倍。这使客户能以更快速度训练模型，把原先需要数月时间缩短到数周，同时支持更多推理请求，降低上线时间和营运成本，让过去被视为不切实际或太昂贵的AI 项目化为可能。

通过EC2 UltraClusters 3.0架构，Trainium3 UltraServers 可扩展至最高100万张芯片的超级集群，规模较上一代提升10倍，已为Anthropic的“Project Rainier”项目提供核心算力支撑（目前已部署50万张Trainium 2，计划年底前扩容至100万张）。

AWS指出，已有多家客户使用Trainium3 和Trainium3 UltraServers 取得成效，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等，训练成本比其他方案最多降低50%。

此外，AWS 还曝光了下一代AI 加速器Trainium4。虽然目前这款芯片正在开发中，AWS也没有公布Trainium4 推出的具体时间，但是AWS 承诺Trainium4 将会带来至少6倍处理性能（FP4）、3倍FP8 性能、4倍內存频宽。

更重要的是，Trainium4 将支持NVIDIA NVLink Fusion 高速互连技术，使Trainium4、Graviton 及EFA（Elastic Fabric Adapter）能在通用的MGX 机架顺畅协作，与NVIDIA GPU 相互操作、扩展性能。

编辑：芯智讯-浪客剑

云霞资讯网

AWS发布全新AI芯片Trainium3：性能提升4.4倍！

热门分类

AWS发布全新AI芯片Trainium3： 性能提升4.4倍！

热门分类

AWS发布全新AI芯片Trainium3：性能提升4.4倍！