经典案例

  • 首页 经典案例 使用 Amazon SageMaker HyperPod 上的高韧性集群加速 Mistral 的 M

使用 Amazon SageMaker HyperPod 上的高韧性集群加速 Mistral 的 M

2026-01-27 12:45:47

提升 Mistral 的 Mathstral 模型预训练效率:在 Amazon SageMaker HyperPod 上借助高弹性集群实现

作者:Niithiyn Vijeaswaran、Aman Shanbhag、Anoop Saha、Armando Diaz 和 Rohit Talluri发布于 2024年9月18日 Amazon SageMaker、Amazon SageMaker HyperPod、人工智能、计算、生成式AI

使用 Amazon SageMaker HyperPod 上的高韧性集群加速 Mistral 的 M

关键要点

在近年来,随着大型模型FM的发展,计算资源的需求显著增加。本篇文章着重介绍如何利用 Amazon SageMaker HyperPod 平台加速 Mistral 的 Mathstral 模型的预训练,同时减少因硬件故障导致的中断,保持训练的持续性和效率。

高弹性集群:SageMaker HyperPod 可确保在训练过程中实时监控集群健康状况,自动跟踪并修复故障节点。自动恢复功能:在节点故障时,会自动替换为健康节点并从最后的检查点恢复训练。优化的训练效果:通过高效的计算资源管理,SageMaker HyperPod 提供最佳的并行训练环境。

背景与重要性

近年来,FM 规模不断扩大,训练这些模型所需的计算资源也随之大幅增加。计算集群常包含成千上万的 AI 加速器,如 GPU 和 AWS Trainium、Inferentia 等硬件,这些都是为了在云中加速深度学习工作负载而设计的。

然而,当计算集群规模庞大时,单一故障可能会扭曲训练进程,导致客户必须花费数小时进行故障排查和恢复。根据 OPT175B 训练的报告,大约 178000 小时 GPU 资源因不同培训失败而损失,约占总训练时间的 16。类似地,Meta AI 和卡内基梅隆大学的一项研究发现,最严重的情况下,由于硬件故障造成的开销,43 的计算时间被浪费。这对客户在生成 AI 中保持创新速度形成了负面影响,也增加了模型的上市时间。

为什么选择 SageMaker HyperPod?

SageMaker HyperPod 提供以下几个优势,使其成为 FM 训练的优秀选择:

高可用性和低成本:SageMaker HyperPod 固定和管理了一组备用节点,这些节点可以在训练过程中自动替换故障节点,而用户无需额外支付。

优化的集群定位组:各实例组在同一网络架构中启动,以获得最佳节点间延迟,理想用于分布式训练。

预配置的深度学习 AMI:HyperPod 代理运行构建在 AWS 深度学习基础 GPU AMI 之上的 DLAMI,集成了支持开源工具的额外包。

可重复使用的扩展脚本:HyperPod 提供了一套可扩展的脚本,简化多次训练运行的发起过程,助力更快的实验与部署。

自动恢复功能:当节点故障时,HyperPod 会自动将其替换为健康节点,并从最后的检查点重新开始训练。

银河加速器app

实时性能仪表板:HyperPod 无缝集成实时仪表板,能够监控节点健康状况、GPU 利用率、网络流量等关键指标。

接下来,我们将深入探讨如何利用 PyTorch Fully Sharded Data Parallel FSDP在 SageMaker HyperPod 上启动 Mistral AI 的 Mathstral 模型的持续预训练工作。

SageMaker HyperPod 的弹性和可观察性

SageMaker HyperPod 通过持续的健康检查,能够识别并修复集群中的各类硬件故障。一旦检测到故障,HyperPod 能够自动识别并替换故障节点。相关的健康检查指标包括 GPU 健康状态、网络问题等。

为了实现全面的可观察性,用户还可以将 SageMaker HyperPod 集群与 Amazon 管理服务 Prometheus 和 Amazon 管理 Grafana 集成,从而在 Grafana 仪表板上可视化关键指标。

Mathstral 模型简介

Mathstral 是一款针对数学推理和科学发现而设计的模型,基于原始的 Mistral 7B 模型,提供 32k 的上下文窗口。此版本的发布是 Mistral AI 在学术和科学研究方面的更大努力,特别是通过与 Project Numina 的合作提升支持。

PyTorch FSDP 概述

与传统的数据并行训练方法相比,FSDP 通过将模型参数在多个 GPU 上切分,从而减少每个 GPU 的内存需求。这种方法让更大规模的训练成为可能,并且能更快地收敛。

基于 SageMaker HyperPod 的解决方案概述

为 Mathstral 模型部署的架构设计包括 VPC、公共和私有子网,以及与 FSxL 文件系统同步的 S3 存储桶等资源。

请参阅本指南继续了解 SageMaker HyperPod 的基础设施设置和环境配置。

创建基础结构

在创建集群之前,您需要利用 CloudFormation 部署 SageMaker HyperPod VPC 堆栈和可观察性堆栈。具体步骤包括设置云存储桶和安全组,使 SageMaker HyperPod 能够访问 Amazon FSx for Lustre 文件系统。

环境配置

用户需要在 Linux 环境中部署解决方案,并以一定的顺序完成节点、存储、计算实例组的配置。

运行预训练工作

在所需的节点上运行 createcondaenvsh 脚本,以下载所需环境并设置 Conda 环境,随即启动 Mathstral 模型的训练任务。

观察和总结

实体化和监测系统的效能对模型的有效训练至关重要,而 SageMaker HyperPod 除了具备自动化的集群管理功能外,还集成了实时监控工具和故障恢复功能,帮助用户专注于模型的开发而非基础设施的管理。

结论

通过本篇指南,读者可以熟悉如何运用 Amazon SageMaker HyperPod 来高效、可靠地训练 Mistral AI 的 Mathstral 模型。自动化的健康检查和中断恢复功能显著减少了用户的运维负担,让他们能够在不断变化的 AI 研究环境中保持创新。

如需进一步的信息或支持,请联系您的 AWS 帐户团队或查阅 GitHub 和 SageMaker HyperPod 工作坊。