12月3日,在re: Invent 2025 大会上,AWS官宣正式推出采用3nm制程的Trainium3芯片的全新Amazon EC2 Trn3 UltraServer,来帮助云计算客户以更低的成本更快训练和部署大模型。

AWS官方表示,与上一代基于Trainium2的服务器相比,新款服务器的计算性能提升了4.4倍,能效提升了4倍,内存带宽也提升了近4倍。
每台UltraServer服务器最多可扩展至144颗Trainium3芯片,提供高达362 FP8 petaflops的计算能力。
Trainium3 是 AWS 继与 Anthropic 合作创建的Project Rainier中部署50万颗Trainium2芯片之后推出的,Project Rainier 被誉为世界上最大的 AI 计算集群。
AWS还公布了Trainium4的早期细节,预计其FP4处理性能至少提升6倍,FP8性能和内存带宽也将得到提升。
据悉,这款新一代芯片将支持NVIDIA NVLink Fusion互连技术,可与NVIDIA GPU和AWS Graviton处理器在MGX机架中协同工作。
从这次大会上,我们也获悉,AWS迄今已部署超过100万颗Trainium芯片。
AWS官方表示,最新的性能提升意味着更快的训练速度和更低的推理延迟。在采用OpenAI的GPT-OSS开源权重模型进行的内部测试中,Trn3 UltraServer的单芯片吞吐量是Trn2 UltraServer的3倍,响应速度是Trn2 UltraServer的4倍。
包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music在内的多家公司表示,在某些情况下,采用AWS全新算力训练和推理成本降低了高达50%。AWS也表示,其Bedrock服务已经在Trainium3上运行生产工作负载。
实时视频生成公司Decart称,其Trainium3平台实现了比GPU快4倍的帧生成速度,而成本仅为GPU的一半。
据悉,UltraServer由升级后的网络堆栈提供支持,包括全新的NeuronSwitch-v1(内部带宽翻倍)和改进的Neuron Fabric(芯片间延迟低于 10 微秒)。
AWS官方表示,这减少了分布式训练和推理中的瓶颈,尤其适用于智能体系统、混合专家架构和强化学习等工作负载。
UltraClusters 3.0可以连接数千台新型服务器,可扩展至多100万颗Trainium芯片——是上一代产品的10倍。
AWS官方也表示,这种规模能够支持在万亿级数据集上训练多模态模型,并为数百万并发用户提供服务。
© 版权声明
本文来源互联网,版权归原作者所有,内容仅代表作者本人观点,不代表电子人导航网的立场。如有任何疑问或需要删除,请联系VX:dianzinav
相关文章
暂无评论...