数据量巨大、而且数据类型多样化,存储成本高昂:制药行业生成的数据量庞大,如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样,包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储,成本较为高昂。使用NAS之后,既增加了架构复杂度,并且额外增加了数据的搬运成本,需要额外的开发和维护。
模型训练主要以海量小文件为主,模型更新频率不高,会有闲置的NVMe的资源:AI制药通常需要海量小文件和随机访问表现,模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源,成为提高效率、降低成本的关键。
数据安全性和隐私保护:制药数据包含患者敏感信息和专利数据,因此需要高水平的数据安全保护。随着个人数据保护法规的不断加强,制药公司需要确保在使用患者数据时符合相关法规。
Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:
使用Alluxio提供统一命令空间下,可以基于海量小文件提供无状态可扩展的分布式缓存。Alluxio部署在GPU节点,介于GPU和对象存储之间,Alluxio+对象存储+NVMe闲置资源就可以达到高性能NAS存储的性能。在性能相当的情况下,可以节省NAS的费用,起到降本增效的作用,同时Alluxio提供了更高的无状态可扩展性,可以支撑十亿、百亿量级的数据高性能访问需求。