010-82449668

EN 中文

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

挑战

随着 AI 技术的不断进步,模型训练所需的数据量呈爆炸式增长,模型复杂度也大幅提升,从早期简单的机器学习模型到如今的大规模深度学习模型。AI 平台在数据访问上面临的主要痛点包括:底层存储性能不足,导致 GPU 利用率低下,增加了运营成本;专用存储虽然性能较好,但伴随计算负载增加、集群增大,成本也将愈发高企,不利于成本控制;存储方案复杂,缺乏一体化管理,增加了管理难度;以及随着数据规模的增长,IO 压力问题日益严重。这些挑战共同导致了AI 平台的效率和成本效益问题。

设计理念:更透明、性价比更高的 Alluxio 存储方案

针对 AI 平台进行数据访问时面临的挑战,Alluxio 推出了分布式缓存方案。

640-1
主要特点

Alluxio 能够透明地支持多种 AI 计算框架,对用户 AI 应用无侵入性,并通过自研的高性能 FUSE 技术,使用户可以像操作本地磁盘一样读写数据,无需感知 Alluxio 缓存层的存在。其次,Alluxio 支持广泛的云基础设施和存储系统,包括公有云、私有云、混合云以及主流的对象存储和 HDFS 系统,同时利用 SSD 或 RAMFS 提供本地 IO 能力,显著提升数据访问性能。

Alluxio 提供统一的全局视图,简化了对多种底层存储系统的管理,降低管理复杂度。它还提供了安全合规、数据隔离等平台层标准能力,确保数据的安全性和合规性。Alluxio 的灵活扩展性使其能够适应不断变化的业务需求,保障了长期的适用性和扩展性。

基于这些特点,Alluxio 缓存方案旨在解决 AI 平台在数据访问方面面临的性能瓶颈、成本问题和复杂管理等挑战,提高GPU 利用率,降低运营成本,并简化存储管理,帮助用户实现降本增效的目标。

基于 MLPerf® Storage 的 Alluxio 性能测试

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。

MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

目前,MLPerf™ Storage 基准测试的最新版本为 v1.0,支持两种模拟加速器(A100 和 H100),并涵盖三种典型的模型训练负载:3D-UNet、ResNet-50 和 CosmoFlow。这三种模型在 MLPerf™ Storage 基准测试中的特点如下:

640-1
这些负载覆盖了顺序读取、随机读取、小文件读取等多种 I/O 场景,能够全面评估存储系统在不同场景下的吞吐量和延迟性能。

为更好地理解 MLPerf™ Storage 基准测试的核心内容,我们需要先介绍一些关键概念:

模拟加速器(Accelerator):模拟加速器是测试中用于模拟 GPU 数据读取的算力基本单位。在 MLPerf™ Storage 基准测试中,利用模拟加速器可以在无需真实 GPU 的情况下,对存储系统进行全面且系统的性能评估。v1.0 版本提供了两种类型的模拟加速器,分别对应模拟 A100 和 H100 GPU 的实际运行行为。

加速器利用率(AU):加速器利用率是评估模拟加速器算力是否被充分利用的重要指标,数值越高表示利用率越好。在合格的 MLPerf™ Storage 基准测试中,针对不同模型的最低加速器利用率要求如下:

–  3D-UNet 和 ResNet-50:利用率需达到 90% 以上;

–  CosmoFlow:利用率需达到 70% 以上;

训练数据集:训练数据集是用于模型训练的核心数据。在基准测试中,为确保结果的可靠性,训练数据集的大小不得过小,需至少达到训练节点内存容量的 5 倍。这一要求是为了避免数据被缓存到节点内存,从而削弱对存储系统真实性能的测试。

训练吞吐:训练吞吐反映存储系统的数据读取能力,一般以“MB/秒”(数据读取速度)或“样本/秒”(样本读取速度)来衡量,数值越高代表性能越好。

测试准备

测试基于Alluxio Enterprise AI 3.4 高性能数据平台,模型训练任务直接通过 Alluxio Fuse(POSIX 协议接口) 向 Alluxio 集群请求缓存数据进行训练。训练集群及 Alluxio 集群的拓扑分布如下:

640-2
多场景模型训练 I/O 性能评测

该测试旨在评估 Alluxio 在不同类型模型训练任务中的综合表现,重点展示其在典型 I/O 场景(如顺序读取、随机读取、小文件读取)下的性能优势和兼容性。这一测试全面反映了 Alluxio 在多样化训练需求中的适配能力。

Alluxio 集群规模为 5 Alluxio Worker,5 Alluxio Fuse,节点的配置如下:

Alluxio Worker:vCPUs 96; 架构 x86_64;内存 768 GiB;网络带宽 100G;

Alluxio Fuse:vCPUs 128; 架构 x86_64;内存 256 GiB; 网络带宽 200G。

测试结果如下:

640-1
ResNet-50 训练场景(100 台 H100)

✓ Alluxio 集群实现了 175,481 样本/秒的处理速度,相当于每台 H100 每秒处理 1,754.82 样本。

✓ 加速器的平均利用率达到了 98.15%,显著高于 MLPerf™ Storage 基准测试的合格线(90%)。

3D-UNet 训练场景(10 台 H100)

✓ Alluxio 集群实现了 206 样本/秒 的处理速度,即每台 H100 每秒处理 20.6 样本。

✓ 加速器的平均利用率为 96.24%,依然远超合格线(90%)。

CosmoFlow 训练场景(25 台 H100)

✓ Alluxio 集群实现了 5,105.48 样本/秒 的处理速度,相当于每台 H100 每秒处理 204.22 样本。

✓ 加速器的平均利用率达到了 71.75%,超越基准测试的合格线(70%)。

测试结果表明,Alluxio 的分布式缓存系统能够适配多种模型训练的 I/O 场景,有效满足 AI 训练过程中对高速数据访问的需求,从而显著提升整体 AI 训练的性能和效率。凭借其优化的数据访问与存储管理能力,Alluxio 不仅帮助用户实现了更高的 GPU 利用率,还加速了模型训练的进程,为 AI 基础设施带来了更高的价值。

Alluxio 集群可扩展性评测

该测试旨在评估 Alluxio 集群的可扩展性,通过不同规模的 Alluxio 集群配置,分析其在不同规模的 ResNet-50 模型训练中的性能表现。

Alluxio 的节点的配置如下:

Alluxio Worker:vCPUs 96; 架构 x86_64;内存 768 GiB;网络带宽 100G;

Alluxio Fuse:vCPUs 72; 架构 x86_64;内存 192 GiB; 网络带宽 100G。

测试结果如下:

640
640-3
测试结果显示,随着加速器数量的增加(从10增加到300)、训练数据集的增长(从1TB增长到15TB)以及 Alluxio 集群的同步扩容,Alluxio 始终保持较高的加速器利用率(超过96%)。同时,Alluxio 的数据吞吐性能也随着集群规模的扩大而显著增长(从1.94 GB/s增加到57.36 GB/s)。这表明,Alluxio 的 I/O 性能能够随着集群规模的线性扩展而稳定提升,从而有效支持超大规模的模型训练场景。

注:以上结果 Alluxio 按照 MLPerf™ Storage V1.0 基准规则测试,尚未经 ML Commons 协会验证。

小结

在此次 MLPerf™ Storage 基准性能测试评估中,Alluxio 凭借其创新的技术架构,在多种 AI 模型训练场景中展现了卓越的性能和良好的可扩展性。此外,在方案成本方面,Alluxio 的缓存方案优势明显。用户不仅无需投入高昂的费用购买专用的 AI 存储设备,还能显著降低云端的数据访问成本,从而进一步减少用户在云环境中的综合支出。后续我们将提供更多维度的测试对比数据和应用案例,以帮助更多用户构建更优质的 AI 平台。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。