010-82449668

EN 中文

《 Presto+Alluxio 概览》白皮书

Presto(PrestoDB和Trino)是非常流行的多个数据源上运行大规模交互式分析查询的计算引擎。Presto的定位是SQL-on-Everything,作为不依赖于存储的查询引擎,可以用来查询在任何位置的分散数据源。

为了满足当下和未来的需求,很多公司不断升级数据平台并开发可扩展的解决方案。从现有的实践来看,虽然Presto具有处理海量数据的能力,但其在跨工作流的数据访问方面优化不足。因此,数据平台工程师还需要寻找其他的方案来解决数据冗余、易出错、性能缓慢、不稳定和高成本的问题。

为了解决这些挑战,我们提出了一个创新架构,建议搭配部署Presto和Alluxio。

Alluxio是一个数据编排平台,连接计算框架和底层存储系统的。Presto和Alluxio的协同工作可实现统一、强大、高性能、低延迟和低成本的分析架构。该架构不仅有利于分析,而且有利于数据工作流各阶段的工作,包括数据导入、分析和建模。这个架构支持跨本地、公有云、混合云和多云环境中的多个存储系统进行快速 SQL 查询。

全球众多公司已经利用Alluxio来升级其当前的Presto平台,包括Facebook、TikTok、美国艺电(Electronic Arts)、沃尔玛、腾讯、康卡斯特(Comcast)等。他们把Alluxio 集成到Presto技术栈中,实现了很多益处。以下将介绍为何以及如何搭配使用Presto+Alluxio。

 

立即下载白皮书。了解更多精彩内容!

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。