010-82449668

EN 中文

望石智慧 x Alluxio 应用案例

关于望石智慧

望石智慧(StoneWise),成立于2018年,是一家使用人工智能技术驱动新药研发的科技公司,旨在用技术与创新力为医药行业带来新视角,打造世界领先的小分子创新药研发平台。借助丰富的药物研发行业认知、创新的数据集成方法和强大的软件与工程能力,公司搭建了以靶点口袋研究、分子生成、超高通量虚拟筛选、理性设计、成药性优化为核心的一体化技术平台,用于提升新药研发中从苗头化合物发现至临床前候选化合物流程中多个关键环节的效率与成功率。
望石智慧汇聚了一批来自医药行业、人工智能、互联网等领域的国内外专家和优秀人才,具备强大的科研实力和产品研发能力。自成立以来,凭借已被验证的商业模式、扎实的技术根基、综合的团队,望石智慧已与国内外高校、研究机构、药企达成广泛的联系与合作,并获得了多个AI和医药领域一线投资机构的认可。

 

遇到的主要挑战

望石智慧在模型训练的过程中,架构情况如图,其基础数据是放在对象存储OBS上的,基础数据以小文件(几百KB到1MB之间)为主。为了解决小文件读的问题,引入了NAS存储,并且将小文件压缩合成了一个大文件,通过基于大文件的NAS随机读的方式支撑模型训练。
但是这种方式带来了以下的问题:
  • 对象存储以及NFS在处理海量小文件时性能不满足预期,需要额外的数据处理成本将数据从对象存储加工后放到NFS以保证性能;
  • 额外的数据处理任务开发和维护成本,不同的训练数据集需要独立的数据处理任务;
  • 额外的NFS存储成本以及维护成本,数据需要额外存储2份以上,同时需要定时清理。
 

Alluxio解决方案及带来的价值

望石智慧经过严苛调研,最后选择Alluxio,架构方案如下:

 

 
从性能结果来看,我们看到 Alluxio + NVMe盘 + OBS 的性能能够满足望石智慧的预期——保障模型训练的数据读性能,这样可以节省客户采购高性能NAS的成本。在测试对标NAS的过程中,同样的模型训练代码,基于Alluxio模型训练的时间和基于NAS的模型训练的时间对比,两者基本持平。

 

 

同时在性能相当的情况下,Alluxio带来了更多的价值:

 

  • 缓存加速,基于模型训练集群的本地高性能SSD盘资源,通过缓存保障模型训练的数据读取性能;
  • 解绑NAS,使用Alluxio + OBS直接支撑模型训练,在保障性能的基础上,降低架构复杂度,减少不必要的ETL代码,能够更实时的感知数据源头的变化;
  • 在训练任务性能相当的情况下,既节省了用户额外购买NAS的成本,又将GPU服务器上空闲的SSD盘利用了起来,

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。