背景导读
“数据孤岛”这个词相信大家并不陌生,随着企业数字化程度不断加深,由于数据孤岛所产生的数据重复、易出错、处理成本高等问题不断消耗着企业的成本,降低了运营效率,因此“数据孤岛”已经成为诸多企业亟需摆脱的难题。
正所谓“数据领域的问题还是要借助数据工具解决”。
作为在线旅游行业的佼佼者,Expedia 在管理跨区域数据应用数据湖时在解决数据孤岛方面积极应对挑战,在 Alluxio 的加持下,数据孤岛已不再是阻碍企业数字化发展的绊脚石,实现了统一访问跨区域的数据,以更优的性能和更低的成本在云上打造了一个现代、可扩展的数据平台。
在 Expedia 集团的“品牌世界”中,拥有一系列品牌,如 hotels.com、VRBO 以及其他收购的独立运营品牌,这些品牌相对独立运营,形成了数据孤岛。随着数据驱动型应用的兴起,数据平台需要进行跨区域和跨品牌的数据分析,所以需要打破这些数据孤岛。
传统的方式是通过“数据复制”,“手动”解决孤岛问题,而这同样具备诸多痛点:
性能差
复制数据意味着数据不是立即可供使用,分析团队必须等待需要分析的数据集被拷贝完毕才能开始分析。这种数据复制的方案缺乏可扩展性,无法应对日益增长的大规模的数据分析。当表的大小为TB 级别时,用户需要等待几个小时甚至一整天。此外,用户通常不清楚数据是不是已经准备好了,这也会导致用户体验不佳,抱怨增多。如果数据不是及时可用的,会显著减慢数据分析速度,也会影响分析结果的准确性。
此外,跨区域的数据读取性能明显慢于同一区域的数据读取。团队/品牌在访问位于不同区域的 S3 存储桶(bucket)时会出现网络延迟。而用户在进行业务相关的分析决策时可能要求数据访问的延迟较低,这一点无法满足。
易出错
由于数据的同步和验证都需要手动进行,数据复制很容易出错。为了最大限度地减少数据丢失的风险并保持数据完整性,我们必须进行严密地监测,确保数据传输的连续和完整。此外,当将多个数据源复制到主数据湖的区域时,数据验证过程非常复杂。这些都增加了数据平台团队的管理成本。
S3流量成本高
由于数据分布在不同的区域,我们必须将整个表复制到主数据湖中,以确保数据可用并且是最新的。我们大部分数据是 Hive 格式,不支持更新/合并方式。因此,当数据源有重述或历史回填时,我们必须将整个表复制到主数据湖,这种时候设计到的数据规模非常大(100 TB以上),导致跨区域的S3流量成本非常高。使用数据复制方案显著增加了我们团队的运营成本和数据平台的长期总拥有成本(TCO)。
我们意识到,使用数据复制的这种方案是不可持续的。因此我们得重新考虑一种长期解决方案,新方案需要能够改善延迟,并降低分散的数据湖的跨区域访问成本。
针对以上诸多问题,Alluxio 给出了针对性的解决方案,一个避免数据复制的,或者至少避免在非必要情况下复制数据的长效解决方案:
总之,管理云化、现代化的数据平台是一项长期且必要的工作,只有选对工具,才能以更优的性能和更低的成本在云上打造一个现代、可扩展的数据平台。
关于Expedia
Expedia集团(NASDAQ代码:EXPE)是一家面向消费者和小型商务旅行群体的美国在线旅游购物公司。Expedia 通过业界领先的全球化平台随时随地为旅行赋能,助力合作伙伴的成长和成功,同时为旅行者提供难忘的体验。
立即下载案例研究,了解更多精彩内容!