近日,Alluxio发布Alluxio Enterprise AI 3.5 版本。该版本凭借仅缓存写入模式(Cache Only Write Mode)、高级缓存管理策略以及Python的深度集成等创新功能,大幅加速AI模型训练并简化基础设施运维,助力企业高效处理海量数据集、优化AI工作负载性能。
AI驱动的工作负载常因海量的数据管理复杂度高导致效率瓶颈以及训练周期延长。Alluxio Enterprise AI 3.5 通过快速优先访问关键数据、无缝集成主流AI框架等优化手段来提升性能,从而加速模型开发。
"Alluxio Enterprise AI 最新版本推出多项创新功能,旨在进一步提升AI工作负载性能。" Alluxio创始人兼CEO李浩源表示,“当前客户的AI模型训练已进入超大规模数据时代,数据集常涉及数十亿文件量级。为此,我们推出Alluxio Enterprise AI 3.5来保障训练任务达到峰值性能,同时简化AI基础设施的管理和运维。
Alluxio Enterprise AI 3.5 核心功能:
- 全新缓存模式加速AI训练Checkpoint —— Alluxio 的仅缓存写入模式将AI模型训练过程中的 Checkpoint 文件等写操作数据直接写入Alluxio缓存层,绕过低效的底层存储系统(UFS),消除I/O瓶颈,从而提升写性能。(预览功能)
- 高级缓存驱逐策略提供细粒度的缓存控制 —— TTL缓存驱逐策略: 管理员可为缓存数据设置有效时间(TTL),基于预设的策略自动驱逐低频访问数据,避免存储资源浪费; 基于优先级的缓存策略: 管理员可为关键数据集设置优先级,覆盖默认的LRU(最近最少使用)算法,确保高优先级数据保留在缓存中。这一策略尤其适用于低延迟访问关键数据集的工作负载。
- 基于FSSpec的原生Python SDK强化了与主流AI框架的集成 —— Alluxio Python SDK现已基于FSSpec实现了与PyTorch、PyArrow及Ray等主流AI框架的深度集成。该集成通过提供统一的Python文件系统接口,使应用程序能够以标准化方式无缝对接各类存储后端。对于采用Python开发、特别是承载数据密集型工作负载及AI模型训练的应用而言,这一改进大幅简化了Alluxio Enterprise AI的技术对接流程,使其能够轻松实现本地与远端存储系统的快速、高频访问。(预览功能)
同时,新版本也也增加了以下关于Alluxio S3 API的关键优化:
- 支持HTTP持久连接(HTTP Keep-Alive)—— 通过复用单一TCP连接处理多个请求,减少每次请求新建连接的开销。针对4KB大小的S3 ReadObject读取操作,该优化可减少约40%的请求延迟。
- TLS加密传输 ——为Alluxio S3 API与Worker节点间通信提供TLS加密支持,确保数据传输安全。
- 分片上传(MPU)支持 —— Alluxio S3 API 现支持将大文件拆分为多个分片并行上传,显著提升大文件上传吞吐量,同时简化上传流程。
其他关键优化:
- Alluxio 索引服务 —— 该项新的缓存服务针对存储数亿级文件及子目录的超大规模目录结构,显著提升目录列表操作性能。通过从缓存中直接提供目录列表详情,相比查询底层文件系统(UFS),可提供3至5倍的速度提升,有效保障海量元数据场景下的系统可扩展性。(预览功能)
- UFS 读速率限制器—— 管理员可通过设置速率限制,来控制单个Alluxio Worker从UFS读取数据时所使用的最大带宽。通过配置UFS读取速率限制器,管理员可以在确保系统稳定的同时,实现资源的优化利用。Alluxio支持对包括S3、HDFS、GCS、OSS和COS在内的多种UFS类型进行速率限制。
- 支持异构Worker节点 —— Alluxio现支持具有异构资源配置(CPU、内存、磁盘和网络)的集群Worker节点。该增强功能为管理员在配置集群时提供了更大的灵活性,可实现更好的资源分配。
资源下载
Alluxio Enterprise AI 3.5 下载链接: https://www.alluxio.com.cn/product/download/
其他资源
更多有关Alluxio Enterprise AI 3.5的信息: