010-82449668

EN 中文

Alluxio 2.9 版本的新功能简介: 跨集群同步、Kubernetes Operator 以及灵活的S3 API访问控制

今天,我们很高兴地宣布Alluxio 2.9免费开源社区版和2.9企业版正式对外发布!2.9正式版本(GA)具备稳定性、良好的支持性以及企业级特性。本文将介绍Alluxio的新架构以及这种架构如何赋能世界头部企业在跨区域、跨计算引擎和存储系统的分析和 AI 应用场景下实现增长和敏捷性。

 

Alluxio 2.9 版本增加了跨集群同步功能,支持横向扩展的多租户架构;显著改进在Kubernetes上部署的工具集和指南,增强了Alluxio的可管理性;此外,新版本还通过优化S3 API 实现安全性和性能上的提升。

 

企业可以通过Alluxio实现跨计算和跨存储的多云数据平台。Alluxio可以与 Spark、Presto、Trino、PyTorch 和 Tensorflow 等一起部署于任何云平台,如 AWS、GCP 和 Azure。Alluxio可以部署在私有云数据中心或公有云在 Kubernetes 上使用。

Alluxio社区版的亮点

 

以下功能是Alluxio 2.9社区版和企业版均支持的:

 

Master节点健康状态监测

The Alluxio master now periodically checks a combination of resource usage, including CPU and memory usage, and several performance critical internal data structures to infer the overall state of the system. The possible statuses, which can be retrieved by inspecting the master.system.status metric, are:

Alluxio master 现在定期检查各类资源的综合使用情况,包括 CPU 和内存使用情况,以及通过几个影响性能的关键内部数据架构推断系统的整体状态。您可以通过查看 master.system.status 指标获取Master节点健康状态:

  • 闲置
  • 正常运行
  • 繁忙
  • 过载

关于如何使用此功能,请查看文档,了解更多有关此监测功能的信息。

 

Worker 节点上的分页式存储(试验性)

新版本支持更细粒度的存储。以往Alluxio只支持64MB块存储,新版本支持1MB的分页级存储,数据可以更细的颗粒度缓存在Alluxio worker 节点上。

此功能是为了通过提高缓存的效率而增强性能。当应用首次访问底层存储时,可以减少读放大。

请查看此文档了解如何使用。

 

Alluxio企业版的亮点

下列功能仅限于Alluxio企业版。

 

跨集群同步

租户隔离可有效防止不同团队在访问共享数据湖存储时产生竞争。Alluxio通过新增的跨集群同步功能,提高了在 Kubernetes上跨租户或跨环境部署多个 Alluxio 集群时的可扩展性。

多Alluxio集群的联合(federation)是通过元数据同步实现的。不同的 Alluxio实例之间知道各自对于元数据的修改情况,实现元数据的互通,从而自动保持元数据同步。当部署卫星集群架构时,此功能尤其有用,数据生产者在更新数据湖时可与数据消费者实现隔离。

开始部署前,请点击此处查看文档。

 

新增Kubernetes Operator,提升Alluxio的可管理性

在 Kubernetes 上运行 Alluxio 有助于将部署策略标准化,使得数据技术栈可移植到任何环境。新版本新增了 Alluxio Operator,可简化多个 Alluxio 集群的部署和管理。

管理员现在可以通过CRD(自定义资源)轻松部署和管理 Alluxio。使用Alluxio Operator可降低管理多个Alluxio实例的负担。

开始部署前,请点击此处查看文档。

 

S3 API 安全功能提升

新版本进一步强化了S3 API 功能管理员现在可通过统一命名空间来集中管理身份验证和访问控制策略,实现无论是在本地还是跨云异构存储的统一的安全保护。

新版本增加了对 S3 API的开放式身份验证协议的支持,确保在处理Alluxio的用户请求之前对其进行验证。这项新功能允许数据平台团队连接到身份管理系统(例如 PingFederate),并使用单点登录 (SSO)。

开始部署前,请点击此处查看文档。

 

如需了解有关Alluxio 2.9版本的更多信息,可点击此处预约会议,与我们的解决方案工程师进行1对1交流。

 

更多信息

关于Alluxio 2.9版本的重要功能和修复漏洞的完整列表,请查看社区版发布说明企业版发布说明

欢迎点击 https://www.alluxio.io/download/ 免费下载Alluxio 2.9开源社区版和企业试用版。如果您有任何疑问或反馈,也欢迎加入我们社区的slack 频道,与社区的9000+成员一同探讨和交流。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。