* 海量多模态数据:在自动驾驶的模型训练环节中,数据集通常由数十亿到数百亿个小文件组成,每次训练需要使用数千万到数亿个文件。存储系统面临着管理数十亿到数百亿个小文件的挑战
* 各类型数据资产管理困难:自动驾驶系统的相关数据来自不同模块,比如感知、定位、决策、规划,其中,数据类型、处理方式、数据规模都不相同,处理相应数据的工作量非常大且没有考虑到协同效应
* 数据存储成本高,尤其是全闪NAS成本高昂:Robotaxi单台车每天产生4000GB数据量,按照一般云厂商的收费标准,存储一年的成本约35万美元(折合人民币约244万元)。一般自动驾驶企业都会把训练数据分布在多个低性能对象存储集群;在GPU服务器和对象存储之间一般会采用高性能全闪NAS作为缓存系统,从而维持高GPU利用率。但是全闪NAS成本高昂,随着训练数据集不断增长,扩容成本无法承受。
* GPU利用率较低:由于数据量较大且分布在不同的地方,每次训练之前都需要进行数据拉取和准备,因此模型训练的很多时间都浪费在了等待数据的过程中,从而造成GPU利用率低的问题,间接地造成了资源浪费。
AI场景
大数据分析场景
在大数据分析场景下,在Alluxio可以协助企业快速的进行数据湖架构升级,基于Alluxio构建安全、高效的基于对象存储的数据湖架构: