场景 :由于预处理不充分而导致的错误信息
一家餐饮连锁公司的供应链高管对英国 月份消费量翻倍的报告感到惊讶。由于处理错误,本月的消费文件被附加到 月份的消费文件中,并存储在 数据湖中。
当前的方法和挑战
云数据湖项目目前的重点是数据采集,即将 亚美尼亚电话号码数据 数据从多个数据源(通常格式不同)移动到单个目标的过程。数据采集后,数据通过数据管道移动,数据错误问题开始浮现。我们的研究估计,平均 到 的任何 分析 项目花费在识别和修复数据问题上。在极端情况下,项目可能会被彻底放弃。
当前数据验证方法旨在一次为一个容器存储桶建立数据质量规则,因此,为数千个存储桶容器实施这些解决方案存在重大成本问题。仅关注容器通常会导致规则集不完整,或者通常根本不实施任何规则。
集成数据验证解决方案的运营挑战
一般来说,数据工程团队在集成数据验证解决方案时会遇到以下运营挑战:
分析数据和咨询主题专家以确定需要实施哪些规则所需的时间
实施针对每个容器的特定规则。因此,工作量与数据湖中的容器存储桶文件夹的数量成线性比例
现有的开源工具方法的审计跟踪能力有限。为满足合规性要求而生成规则执行结果的审计跟踪通常需要数据工程团队花费时间和精力则。