010-82449668

EN 中文

一站式全覆盖数据 I/O 平台 – Alluxio 与 Aunalytics 的完美结合

“Aunalytics云原生数据分析平台与Alluxio 的开源数据编排软件相结合,使客户能够进行跨所有数据源的统一访问,并驱动人工智能分析,产出更好的答案,获得竞争优势。”

- Aunalytics分析云首席技术官 汤姆·帕诺佐

使用案例:统一数据访问+本地计算加速

技术栈:Spark + Drill + Hadoop + Custom AI & Analytics Alluxio /HDFS + NFS + 对象存储

挑战:  访问多个数据存储的操作复杂性+不同计算服务的兼容性问题

优势: 所有数据集中访问+通过内存缓存提高性能+具有存储分层的硬件灵活性

挑战:寻找单一云解决方案的数字化转型鸿沟

早在2012年,作为一家初创公司,Aunalytics 面临着运用非常复杂的分析环境的问题,作为一家数据平台公司,其旨在提供“深度分析即服务”来解决对企业和中型公司而言最重要的IT 和业务问题。Aunalytics DaybreakTM行业智能数据集市与其数据平台的强大功能相结合,提供具有内置查询和人工智能的行业特定数据模型,确保获取及时、准确的数据以及重要业务问题的答案。Aunalytics 在开源计算技术之上利用内部开发的分析软件,以问答形式向客户提供丰富的数据集市。任何业务人员,无论技术能力如何,都可以使用 Daybreak 产品,并利用自然语言处理,解构现实世界的问题,将其转化为数据查询。为了达成前述宏伟愿景,Aunalytics 团队付出了大量努力,试图消除中间市场客户在解决所谓的数字化转型鸿沟时所遇到的知识欠缺和人员不足问题,最终团队成功地做到了这一点,但作为这些技术的早期采用者,团队也产生了运营开销。2020 年,Aunalytics 实施了下一代计算平台,该平台旨在通过自适应分析软件 (Aunsight™) 将存储、计算和交付完全分开,以便于开发和灵活扩展。该软件能够将工作负载提交给多项计算服务,而这些计算服务可从大量存储资源中获取数据。由此,Aunalytics 团队面临两种选择:1. 在主流存储环境(如 NFS、iSCSI 等)上进行集中管理,但这些环境会充斥着大量的性能、一致性和并发性问题;或者2. 采用对这些系统具有单一访问点的多/任意存储环境。作为采用Alluxio 新堆栈的替代方案,Aunalytics 评估了捆绑存储并可部署在私有云中的云计算平台,最终采用了Alluxio新一代数据编排系统,将数据 I/O 足迹集中在一项技术上,从而简化与未来更新计算引擎的集成。

Aunalytics将Alluxio 作为数据 I/O 的“一站式商店

Alluxio为Aunalytics的计算环境提供了针对所有存储数据的单一访问点,无论其容量、速度或存储 I/O 性能如何。这使得团队的开发人员能够专注于分析集成,无需考虑存储环境的限制或兼容性。Alluxio是批量计算环境、动态查询环境和主产品 Daybreak 的主要数据访问和写入机制。与此同时,Alluxio允许Aunalytics 团队利用现有的Hadoop 存储、新的私有云存储以及未来的批量对象存储,实现经济高效的灵活可扩展存储。Aunalytics避免了平台不断发展后,支持遗留环境所带来的复杂性。

Alluxio为数据 I/O 提供的“一站式”服务,使得Aunalytics团队能够从大型单体分析环境(如 Hadoop)迁移,同时在迁移期间仍可以使用hadoop存储系统。Alluxio还使团队能够在分析系统之间执行数据“中转”,其中数据可以由一个系统写入Alluxio,之后由一个完全独立的非兼容系统读取。跨系统共享数据已将迁移后的数据移动/复制需求降低90%,并可缩短30%的计算和交付时间。

集成Alluxio

Alluxio 被部署为新的 Aunalytics 数据环境的一部分。Alluxio使得Aunalytics 团队能够开展多项新工作,但并非作为一个补充系统来实施。Alluxio 的加入充分满足团队对于灵活性的要求,并在此基础上构建 Aunalytics 下一代平台,而不像其他选项一样,迫使团队在采用一个新方案时必须同时做出取舍。

进一步合作

Alluxio 从根本上实现了存储和计算的分离, 提高了大数据和 AI 工作负载的速度和敏捷性,并使得用户能够迁移到对象存储等更新的存储解决方案,消除数据重复,从而降低成本。团队继续在 AI 工作区中使用靠近Daybreak产品的开源计算项目(由Aunsight™ 和 Alluxio 支持)来交付集合产品。Aunalytics 为其客户提供集成Alluxio和其他数据管理技术的大量技术支持,为业务用户提供具有内置数据管理功能的开箱即用分析解决方案。

关于Alluxio

Alluxio系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校AMP实验室。自项目开源以来,已有超过来自100多个组织机构的1000多位贡献者参与开发。Alluxio能够在跨集群、跨区域、跨国家的任何云中将数据更紧密地编排接近数据分析和AI/ML应用程序,从而向上层应用提供内存速度的数据访问。目前,Alluxio的智能数据分层和数据管理功能为金融服务、高科技、零售和电信等诸多领域客户提供了长期业务支持,并已在全球Web规模的现代化数据服务的生产环境中得到验证,全球十大互联网公司中有八家在生产环境中部署了Alluxio。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。

Shopee 在 Alluxio 加速 AI 训练的实践与探索

Shopee是东南亚领航电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西等十余个市场,同时在中国深圳、上海和香港设立跨境业务办公室。2023年Shopee总订单量达82亿,2024年第二季度总订单量同比增长40%,增势强劲。