在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。
在这样的背景下,Alluxio Enterprise AI 在数据索引与模型分发/部署方面展示了其独特的优势,特别是在处理海量数据扇出( Fanout )场景时,显著提升了系统的效率和成本效益。
这里要特别说明一点,在搜索推荐场景中,索引文件和搜索推荐训练模型通常协同工作,以实现高效的信息检索和个性化推荐。索引文件用于快速定位数据,它存储了文档、用户行为、物品特征等的位置信息,使得系统能够迅速找到相关数据。
索引文件和训练模型在搜索推荐系统中密切配合,索引文件提供快速的数据访问能力,而训练模型则负责个性化和智能化的推荐。通过这种协同工作,系统能够高效地响应用户请求,提供相关且个性化的搜索和推荐结果。
以上场景的主要区别在于模型的大小、更新频率、数据复杂性和多样性,以及系统对吞吐量、延迟和带宽的要求。每种类型的分发场景都有其特定的挑战,需要针对性优化模型的分发方式。
虽然模型分发的场景各有不同,但是面临的问题和挑战也有一些相似的特点,以下是一些典型的挑战:
在大规模分发场景中,模型分发的频率和数据量都很大,系统必须具备足够的吞吐能力,以应对不断增加的模型请求和分发需求。同时,系统必须能灵活扩展,以支持业务增长。
举例来说,Alluxio 的一位社区和电商为主营业务的客户,其搜推业务的索引存储选择放在在云盘上,导致读取速度仅为350MB/s。这远低于理想状态下的读取速度,尤其是在海量数据处理场景中,速度的限制直接影响到业务的响应时间。
在实时应用场景(如推荐系统、广告投放等)中,模型更新的延迟必须极低。如果模型更新慢,可能影响服务质量,甚至导致用户体验下降。
在复杂的机器学习任务中,模型分发涉及将训练好的模型分布到多个服务器或节点上,以便于并行处理任务。然而,随着数据和模型的规模不断扩大,模型分发的过程变得愈发复杂和耗时。传统的模型分发方式往往依赖于本地存储和冗余复制,增加了系统的复杂性和资源消耗。
在需要快速扩展或缩减资源时,由于索引读取速度慢,通常发布一个机房的服务需要3~4小时,发布完所有机房可能需要整整一天。这对于需要快速响应市场变化的业务来说是一个巨大的挑战。
在传统的架构中,每台机器上通常存储多个版本的索引数据,导致存储空间的浪费,并显著增加了存储成本。另外,海量数据扇出的过程中,也会产生高额的网络访问成本。
针对上述挑战,Alluxio Enterprise AI 提出了创新的解决方案,特别是在模型分发和索引管理方面,实现了显著的性能提升和成本优化。
Alluxio Enterprise AI 大幅提升了吞吐和 IOPS 性能。利用专为 AI 工作负载定制的高性能低延迟的分布式缓存,在数据湖之上可实现高达 20 倍的 I/O 性能。GPU 服务器能够在10秒内加载完100GB 的 Checkpoint,实现单客户端10GB/s 的加载吞吐,满足大模型分发的高吞吐需求。
传统的云盘存储方式在索引拉取的读取速度上存在明显的瓶颈,而 Alluxio 通过分布式缓存与高效的数据传输协议,显著提升了索引的拉取速度。这在处理大规模模型训练任务时,能够极大地缩短数据准备时间。在模型分发过程中,Alluxio Enterprise AI 的优化措施使得整个分发流程更加高效。通过减少冗余数据传输和提高数据传输的并行度,系统可以在更短的时间内将最新的索引分发到各个节点,从而加速业务逻辑的执行。在上文提及搜推业务场景下,通过使用 Alluxio,该客户索引读取速度提升10倍以上,端到端索引分发速度提升3倍,效果立等可现。
Alluxio Enterprise AI 通过将索引存储与计算分离,解决了云盘带宽瓶颈的问题。在这种架构下:
Alluxio Enterprise AI 不仅在性能上实现了提升,还通过优化资源使用,显著降低了运营成本:
Alluxio Enterprise AI 针对AI场景优化的去中心化技术架构,移除了传统架构中常用的中心化元数据管理模块。这极大的降低了产品复杂度和运维成本,从进一步保障产品运行的稳定性。
Alluxio Enterprise AI 在模型分发方面,能够分别针对实时分发、大型模型分发、多模态分发等不同情景下的数据特点,实现高并发高吞吐、提升数据索引的速度、大幅节省成本,展现了卓越的性能和成本优化能力。
通过解决传统云盘存储的瓶颈问题,优化数据传输与缓存管理,Alluxio 为搜索、推荐、广告、大模型、多模态等业务的模型训练和分发提供了高效、低成本的基础设施支持。
对于需要处理大规模数据和复杂模型的企业来说,Alluxio Enterprise AI 是一个不可或缺的工具,它能够显著提升数据拉取与数据索引的速度,为业务的快速响应和持续创新提供坚实的技术保障。
在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。
南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。
Shopee是东南亚领航电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西等十余个市场,同时在中国深圳、上海和香港设立跨境业务办公室。2023年Shopee总订单量达82亿,2024年第二季度总订单量同比增长40%,增势强劲。