云霞资讯网

AWS发布全新AI芯片Trainium3: 性能提升4.4倍!

当地时间12月2日,亚马逊云计算部门(AWS,Amazon Web Services)的年度技术盛会“re:Invent

当地时间12月2日,亚马逊云计算部门(AWS,Amazon Web Services)的年度技术盛会“re:Invent 2025”在美国拉斯维加斯正式开幕。在此次会议上,AWS正式发布了新一代自研AI芯片Trainium3,以及为下一代AI 工作负载打造的Trainium3 UltraServers,同时还公布了Trainium4 路线图。

众所周知,为了满足自身需求及降低成本,亚马逊、谷歌等众多云服务大厂在数年前就已经开始了自研云端AI芯片。根据亚马逊AWS公布的信息显示,目前其定制芯片业务规模已达数十亿美元,Trainium系列芯片全球部署总量突破100万张,成为支撑超大规模AI计算的核心支柱,在全球云厂商自研芯片中仅次于谷歌TPU。

具体来说,Trainium 3 基于台积电3nm制程工艺,单芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。同时,该芯片还将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s,同时强化结构化稀疏性和微缩放硬件支持,进一步优化大语言模型训练与推理效率。

AWS表示,Trainium 3有望将AI模型全生命周期成本整体降低50%,可以为客户带来更高的性价比AI算力服务。

同时,AWS还推出了基于全新一代Neuron Fabric互联技术的Trainium3 UltraServers,最多可以将144颗Trainium3 整合在单一系统中总算力达362 FP8 PFLOPs。

△Trainium3 UltraServers

根据AWS的说法,相较上一代的Trainium2 UltraServers,全新的Trainium3 UltraServers 的原始性能提升了4.4倍,性能功耗比提升4倍,整体能源效率提升40%。实测数据显示,部署主流开源模型(如 GPT-OSS)时,单芯片吞吐量提升3倍,响应延迟缩短4倍。这使客户能以更快速度训练模型,把原先需要数月时间缩短到数周,同时支持更多推理请求,降低上线时间和营运成本,让过去被视为不切实际或太昂贵的AI 项目化为可能。

通过EC2 UltraClusters 3.0架构,Trainium3 UltraServers 可扩展至最高100万张芯片的超级集群,规模较上一代提升10倍,已为Anthropic的“Project Rainier”项目提供核心算力支撑(目前已部署50万张Trainium 2,计划年底前扩容至100万张)。

AWS指出,已有多家客户使用Trainium3 和Trainium3 UltraServers 取得成效,包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等,训练成本比其他方案最多降低50%。

此外,AWS 还曝光了下一代AI 加速器Trainium4。虽然目前这款芯片正在开发中,AWS也没有公布Trainium4 推出的具体时间,但是AWS 承诺Trainium4 将会带来至少6倍处理性能(FP4)、3倍FP8 性能、4倍內存频宽。

更重要的是,Trainium4 将支持NVIDIA NVLink Fusion 高速互连技术,使Trainium4、Graviton 及EFA(Elastic Fabric Adapter)能在通用的MGX 机架顺畅协作,与NVIDIA GPU 相互操作、扩展性能。

编辑:芯智讯-浪客剑