010-82449668

EN 中文

《PyTorch模型训练性能调优宝典》

在当下技术驱动的时代,人工智能(AI)不断发展,对许多领域产生颠覆性的影响。PyTorch 作为一款开源的机器学习框架,与AI密切相关,现在可以说几乎已经占据了深度学习框架的半壁江山,成为许多企业/机构开发和部署深度学习模型的首选。

模型训练是机器学习流程中计算最密集的阶段,需要持续进行性能优化。训练过程可能会由于I/O、数据操作、GPU和CPU处理等诸多因素而变得缓慢,因此对训练性能进行调优往往既困难又耗时。

本宝典中介绍的技术适用于对PyTorch的基础设施及其使用的资源进行调优。这些调优技巧适用于所有模型算法,包括CNNs、RNNs、GANs、transformers(如GPT、BERT)等,且适用于所有领域,如计算机视觉、自然语言处理等。

主要内容:

  • PyTorch的基础知识,包括张量、计算图、自动微分以及神经网络模块的工作原理;
  • 影响机器学习流程中模型训练性能的因素;
  • 优化PyTorch模型训练的分步过程;
  • 在数据加载、数据操作、GPU处理和CPU处理方面的最佳调优技巧,附有代码示例。通过这些技巧,平均训练epoch时长可缩短至原先的1/5-1/10;
  • 在真实生产环境中使用Alluxio作为数据访问层为模型训练赋能的案例研究。

立即下载《PyTorch模型训练性能调优宝典》

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。