010-82449668

EN 中文

Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境

2022年11月17日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本,新版本立即可用。2.9版本进一步强化了Alluxio作为计算引擎和存储系统中间层的关键地位。新功能包括:增加跨环境集群同步功能,支持横向扩展的多租户架构;显著改进在Kubernetes上部署的工具集和指南,增强Alluxio的易管理性;以及通过优化S3 API 和 POSIX API 实现安全性和性能提升。

 

“在我们数据平台的数个核心项目上,我们一直在与Alluxio合作。”乐天集团(Rakuten)DevOps 高级 经理 Nirav Chotai 表示,“我们的基础设施分散在不同的地理位置,涉及不同的计算引擎和存储类型,可以预见,Alluxio对于乐天集团平台的扩展将持续发挥重要作用。我们很高兴能够使用这次发布的新版本,尤其是将新增的Kubernetes operator用于多租户环境。”

 

“我们目前运行着1000个 Alluxio 节点,用来优化模型训练作业和交互查询。”腾讯大数据团队工程经理陈鹏表示,“Alluxio已经成为大型互联网公司加速数据分析和AI应用开发的首选方案。我们十分期待新版本对 Kubernetes功能的强化,这会使得对Alluxio的管理变得更加容易。”

 

“我们一直将 Alluxio 作为多个数据中心上层的数据缓存层,来提高数据的访问性能。”Shopee数据基础设施总监罗李表示,“Alluxio 的架构允许我们开展数据‘服务化’。此外,部署Alluxio还能降低我们基础设施团队的管理开销,特别是当数据分布在不同地域,甚至是跨多个国家的数据中心的情况下。”

 

“在搭建数据平台时,部署专用租户的卫星集群已经变得越来越普遍。”Alluxio 产品总监 Adit Madan 提到, “Alluxio 这次新增的跨环境主动同步元数据的功能非常关键,这项功能让企业更容易搭建这种卫星集群架构。” 

 

通过租户隔离,数据平台既能实现多租户架构的扩展性和和经济性,又能有效防止不同团队在访问共享数据湖存储时产生竞争。通过新增的跨环境同步功能,Alluxio 大幅提高了其架构的扩展性和可管理性,数据平台团队能够根据负载容量,在任何环境下的计算和存储集群之间部署多个单租户的 Alluxio 集群。

 

在 Kubernetes 上运行 Alluxio 有助于将Alluxio部署策略标准化,无论是单云、多云、混合云还是本地环境。新版本引入了 Alluxio operator,简化了多个 Alluxio 集群的部署、配置、预置和管理,降低了运维管理的复杂性。 在Kubernetes 上运行Alluxio 还使得数据栈可迁移到任何环境中,防止被厂商锁定。

 

最后,在 Alluxio 2.9版本中,计算引擎可以通过S3 API 与 Alluxio进行统一交互,在Alluxio这一层实现统一管理身份验证和访问策略。因此,Alluxio能够提供跨本地或云上异构存储环境的统一安全保护。

 

“Alluxio数据编排平台旨在简化、保护和加速异构分析环境中的数据访问。”,Eckerson集团研究副总裁 Kevin Petrie 表示, “2.9 版本的这些强化功能可为新的分析用户、应用程序和项目提供所需资源,从而更轻松、更好地满足SLA。Alluxio能够帮助企业更有效地管理元数据、容器化部署以及 API 安全。”

 

Alluxio 2.9 社区版和企业版包含的新功能有:

 

新增跨环境集群同步功能

Alluxio 2.9版本增加了跨环境同步功能。这个功能让不同的 Alluxio集群之间知道各自对于元数据的修改情况,从而自动保持元数据同步。在任何环境中部署 Alluxio 集群都可以实现租户级隔离,同时可以确保Alluxio 集群中的海量元数据处于同步状态。当部署卫星集群架构时,此功能尤其有用,属于每个团队的租户级的计算集群都可实现隔离。有了这项新功能,多租户架构允许平台横向扩展和支持新用例,而不会出现中央资源瓶颈,从而确保满足 SLA ,并简化元数据管理操作。

 

增强Alluxio在Kubernetes上的可管理性

Alluxio 2.9版本新增了用于 Kubernetes的 Alluxio  operator 。管理员现在可以通过新增的带 CRD(自定义资源)的 Alluxio operator 在 Kubernetes 上轻松部署及管理 Alluxio。使用Operator,管理员可以更容易地对Alluxio部署、连接底层存储、配置更新和卸载进行配置管理。使用 Alluxio operator减轻了在不同环境中部署Alluxio的负担,在管理多个 Alluxio 实例时大大减少了手动工作量并简化了管理运维。

 

提高S3 API 安全性和用户体验

Alluxio 2.9版本进一步增强了其 S3 API功能,为应用程序提供统一的安全模式和更好的用户体验。新版本增加了对 S3 API的开放式身份验证协议的支持,确保Alluxio的用户请求在被处理之前进行验证。这项新功能允许数据平台团队连接到更高级的身份管理系统(例如 PingFederate),并使用单点登录 (SSO) ,从而增强用户体验。通过统一的身份验证和授权模式,连接到 Alluxio 的应用程序可以跨本地、混合云或多云进行移植。

 

下载

Alluxio 2.9 开源社区版和 Alluxio 企业试用版可在此免费下载:https://www.alluxio.io/download/

资源

    Alluxio在数据索引和模型分发中的核心价值与应用

    在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

    南方科技大学分享:大数据技术如何赋能大模型训练及开发

    南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。

    Shopee 在 Alluxio 加速 AI 训练的实践与探索

    Shopee是东南亚领航电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西等十余个市场,同时在中国深圳、上海和香港设立跨境业务办公室。2023年Shopee总订单量达82亿,2024年第二季度总订单量同比增长40%,增势强劲。