* 数据量巨大、而且数据类型多样化,存储成本高昂:制药行业生成的数据量庞大,如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样,包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储,成本较为高昂。使用NAS之后,既增加了架构复杂度,并且额外增加了数据的搬运成本,需要额外的开发和维护。
* 模型训练主要以海量小文件为主,模型更新频率不高,会有闲置的NVMe的资源:AI制药通常需要海量小文件和随机访问表现,模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源,成为提高效率、降低成本的关键。
Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:
为高性能计算和存储提供缓存加速,基于模型训练集群的本地高性能SSD盘资源,通过缓存保障模型训练的数据读取性能;
解绑NAS,使用Alluxio + 对象存储的方式直接支撑模型训练,在保障性能的基础上,降低架构复杂度,减少不必要的ETL代码,能够更实时的感知数据源头的变化
在训练任务性能相当的情况下,既节省了用户额外购买NAS的成本,又将GPU服务器上空闲的SSD盘利用了起来,从而提高了GPU的利用率
望石智慧(StoneWise),成立于2018年,是一家使用人工智能技术驱动新药研发的科技公司,旨在用技术与创新力为医药行业带来新视角,打造世界领先的小分子创新药研发平台。借助丰富的药物研发行业认知、创新的数据集成方法和强大的软件与工程能力,公司搭建了以靶点口袋研究、分子生成、超高通量虚拟筛选、理性设计、成药性优化为核心的一体化技术平台,用于提升新药研发中从苗头化合物发现至临床前候选化合物流程中多个关键环节的效率与成功率。