010-82449668

EN 中文

《使用Alluxio实现Apache Spark DataFrame缓存》

Apache Spark 是目前最流行的分布式计算框架之一。Spark DataFrame 是一个以命名列方式组织的分布式数据集,在执行时间和内存使用上进行了底层优化,成为了Spark主流数据API,得到了普遍应用。Alluxio 与 Spark 是来自加州大学伯克利分校 AMP 实验室的姊妹项目。为了提升性能和简化数据管理,许多企业如中国联通、BOSS直聘、WeRide文远知行、去哪儿等将Alluxio 与 Spark 部署在一起。

 

其中,去哪儿网(Qunar)在生产环境中部署了 Alluxio,其 Spark streaming 作业平均提速了15 倍,高峰时段的性能提升更是高达 300 倍。原先一些变慢或无法完成的 Spark 作业,在使用 Alluxio后都能够快速完成。想了解如何实现?点击下载白皮书:

 

Alluxio 可实现多重优势,帮助 Spark 更有效地执行作业,如何进行配置和操作。立即点击下载白皮书,获悉更多精彩内容。

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。