亚马逊推出定制AI芯片Trainium3

12月3日，在re: Invent 2025 大会上，AWS官宣正式推出采用3nm制程的Trainium3芯片的全新Amazon EC2 Trn3 UltraServer，来帮助云计算客户以更低的成本更快训练和部署大模型。

AWS官方表示，与上一代基于Trainium2的服务器相比，新款服务器的计算性能提升了4.4倍，能效提升了4倍，内存带宽也提升了近4倍。

每台UltraServer服务器最多可扩展至144颗Trainium3芯片，提供高达362 FP8 petaflops的计算能力。

Trainium3 是 AWS 继与 Anthropic 合作创建的Project Rainier中部署50万颗Trainium2芯片之后推出的，Project Rainier 被誉为世界上最大的 AI 计算集群。

AWS还公布了Trainium4的早期细节，预计其FP4处理性能至少提升6倍，FP8性能和内存带宽也将得到提升。

据悉，这款新一代芯片将支持NVIDIA NVLink Fusion互连技术，可与NVIDIA GPU和AWS Graviton处理器在MGX机架中协同工作。

从这次大会上，我们也获悉，AWS迄今已部署超过100万颗Trainium芯片。

AWS官方表示，最新的性能提升意味着更快的训练速度和更低的推理延迟。在采用OpenAI的GPT-OSS开源权重模型进行的内部测试中，Trn3 UltraServer的单芯片吞吐量是Trn2 UltraServer的3倍，响应速度是Trn2 UltraServer的4倍。

包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music在内的多家公司表示，在某些情况下，采用AWS全新算力训练和推理成本降低了高达50%。AWS也表示，其Bedrock服务已经在Trainium3上运行生产工作负载。

实时视频生成公司Decart称，其Trainium3平台实现了比GPU快4倍的帧生成速度，而成本仅为GPU的一半。

据悉，UltraServer由升级后的网络堆栈提供支持，包括全新的NeuronSwitch-v1（内部带宽翻倍）和改进的Neuron Fabric（芯片间延迟低于 10 微秒）。

AWS官方表示，这减少了分布式训练和推理中的瓶颈，尤其适用于智能体系统、混合专家架构和强化学习等工作负载。

UltraClusters 3.0可以连接数千台新型服务器，可扩展至多100万颗Trainium芯片——是上一代产品的10倍。

AWS官方也表示，这种规模能够支持在万亿级数据集上训练多模态模型，并为数百万并发用户提供服务。

本文来源互联网，版权归原作者所有，内容仅代表作者本人观点，不代表电子人导航网的立场。如有任何疑问或需要删除，请联系VX：dianzinav

4个月前

01370

11个月前

03240

1个月前

0570

4个月前

01130

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...