← 返回日报
🌐 机器翻译 · DeepSeek · HF Blog

Building Blocks for Foundation Model Training and Inference on AWS


以下是翻译后的中文内容,已按照要求保留原文结构、代码块、技术术语,并忽略无关文本:

构建 AWS 上基础模型训练与推理的基石


目录

长期以来,基础模型中的“扩展”主要意味着一件事:在预训练上投入更多计算资源,能力随之提升。这一直觉得到了 Kaplan 等人(2020)等实证研究的支持,该研究指出,随着模型参数、数据集大小和训练计算量的扩展,损失函数会呈现可预测的幂律趋势。在实践中,这些趋势证明了持续投资大规模加速器容量以及保持其高效利用所需的分布式基础设施是合理的。

但前沿已经演变——扩展不再是一条单一的曲线。NVIDIA 提出的“从一种扩展到三种扩展定律”框架有效地强调,除了预训练之外,性能还通过后训练(例如监督微调(SFT)和基于强化学习(RL)的方法)以及测试时计算(“长思考”、搜索/验证、多样本策略)来扩展。

图:改编自“AI 的三种扩展定律,详解”(NVIDIA 博客)。

综合来看,这些扩展机制将基础模型的生命周期——预训练、后训练和推理——推向趋同的基础设施需求:紧密耦合的加速器计算、高带宽低延迟的网络以及分布式存储后端。它们也提升了资源管理编排的重要性,以及应用和硬件层面的可观测性,以维护集群健康并在大规模下诊断性能问题。

另一个关键趋势是基础模型生命周期越来越依赖开源软件(OSS)生态系统,涵盖模型开发框架、集群资源管理和运维工具。在集群层面,资源管理通常由 Slurm 和 Kubernetes 等系统提供。模型开发和分布式训练通常使用 PyTorch 和 JAX 等框架实现。监控和可视化——即可观测性——通常通过 Prometheus 收集指标、Grafana 进行可视化和告警来实现,作为基础设施和资源管理之上的运维层。

图 1 展示了这种分层架构,显示了硬件基础设施如何支持资源编排,资源编排又如何支持 ML 框架,而可观测性则贯穿所有层级。

图 1:用于基础模型训练和推理的开源软件栈分层架构

本文面向参与基础模型训练和推理的机器学习工程师和研究人员,特别关注基于 OSS 框架构建的工作流。它分析了 AWS 基础设施——包括多节点加速器计算、高带宽低延迟网络、分布式共享存储以及相关托管服务——如何与基础模型生命周期中常见的 OSS 栈进行交互。主要目标是为理解系统瓶颈以及涵盖预训练、后训练和推理的扩展特性提供技术基础。这篇介绍性文章概述了整体系统架构,强调了 AWS 基础设施组件与支撑大规模分布式训练和推理的 OSS 工具之间的集成点。

AWS 构建基石

本系列的其余部分将探讨这种分层架构如何在 AWS 上实现,依次涵盖基础设施、资源编排、ML 软件栈和可观测性。以下各节预览每一层。

基础设施:计算、网络与存储

如图 1 所示,基础设施由三个相互耦合的构建块支撑——具有大设备内存的加速计算、用于集合通信的宽带宽互连,以及用于数据和检查点的可扩展分布式存储。

加速计算构成了大规模基础模型预训练、后训练和推理的基础。AWS 提供多代 NVIDIA GPU,作为其 Amazon EC2 加速计算实例的一部分,包括 Amazon EC2 P 实例系列。P5 实例系列包括配备八块 NVIDIA H100 GPU 的 p5.48xlarge、针对较小规模工作负载配备单块 H100 GPU 的 p5.4xlarge,以及配备 NVIDIA H200 GPU 的 p5e.48xlarge/p5en.48xlarge 变体。P6 实例系列引入了 NVIDIA Blackwell B200 架构(p6-b200.48xlarge)和 Blackwell Ultra B300(p6-b300.48xlarge)。

在这些代际中,主要的扩展维度是峰值 Tensor 吞吐量、HBM 容量和带宽,以及互连带宽(节点内和节点间)。作为一阶近似,峰值 Tensor Core 吞吐量——以每秒浮点运算次数(FLOPS)衡量——有助于将这些加速器放在同一轴线上进行比较。下表总结了每 GPU 在密集 BF16/FP16 和 FP8 Tensor 操作上的峰值吞吐量,以及 HBM 容量和 HBM 带宽,使用的是与基于 NVSwitch/NVLink 的多 GPU 节点一致的 SXM/HGX 级规格。

| GPU(代表性变体) | BF16/FP16 Tensor 峰值(密集) | FP8 Tensor 峰值(密集) | FP4 Tensor 峰值(密集) | HBM 容量 | HBM 带宽 | | --- | --- | --- | --- | --- | --- | | H100 (SXM) | 0.9895 PFLOPS | 1.979 PFLOPS | — | 80 GB HBM3 | 3.35 TB/s | | H200 (SXM) | 0.9895 PFLOPS | 1.979 PFLOPS | — | 141 GB HBM3e | 4.8 TB/s | | B200 (HGX, 每 GPU) | 2.25 PFLOPS | 4.5 PFLOPS | 9 PFLOPS | 180 GB HBM3e | 8 TB/s | | B300 (HGX, 每 GPU) | 2.25 PFLOPS | 4.5 PFLOPS | 13.5 PFLOPS | 288 GB HBM3e | 8 TB/s |

注意:NVIDIA 产品表通常报告“带稀疏性”的 Tensor 吞吐量;此表报告的是密集吞吐量。在适用情况下,密集吞吐量取稀疏吞吐量的一半,遵循

📖 阅读原文 →