010-82449668

EN 中文

《Spark + Alluxio 解决方案概览》白皮书

Apache Spark是一种支持ETLSQL查询、机器学习和流计算等各类大数据分析作业的开源计算框架。Spark使用内存数据模型并具有快速处理的特性,因此在数据驱动型企业里得到了普遍应用。

 

对于一个全球化运营的公司而言,其跨地域的数据平台会面临许多挑战,往往因为以下原因导致数据的价值转化慢、成本高、敏捷性降低等问题:

  • 如今,数据通常存储于本地、云上或者跨多个地理区域的数据湖、数据仓库和对象存储等数据孤岛中。构建统一的、多数据源、并有效支持Spark的数据平台,选取合适的解决方案是有挑战的。
  • 端到端的数据工作流要求Spark与其他计算框架(如PrestoTensorFlow等)一起使用,这就需要在设计数据平台的架构时统筹考虑。此外,许多企业还在使用上一代的数据平台,缺乏云原生能力或者需要经历复杂的云迁移过程。

 

如果您正在考虑怎么更新你的数据架构来应对这些挑战,Alluxio可以提供帮助。AlluxioSpark来自同一个实验室——加州大学伯克利分校的AMPLabAlluxio是连接计算和存储的开源数据编排平台。通过Alluxio赋能Spark,能够统一数据孤岛,提供跨计算框架的数据共享,并且在不同存储环境间进行数据的无缝迁移。

 

AlluxioSpark联合部署实现一个可扩展、敏捷和经济有效的方案,打造现代化的数据平台。 本文提供了Spark + Alluxio这个技术栈/解决方案的概述,你将会了解到系统架构、实践案例和性能及成本基准测试的结果。

 

立即下载白皮书,了解更多精彩内容。

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。