Skip to content

Latest commit

 

History

History
85 lines (43 loc) · 6.61 KB

data-quality-hierarchy-needs.md

File metadata and controls

85 lines (43 loc) · 6.61 KB

数据质量需求层级

原文:www.kdnuggets.com/2022/08/data-quality-hierarchy-needs.html

马斯洛确定了人类需求的层级,从基础的生理需求如食物和住所开始,逐步上升到社会需求,最后到达创造力和自我实现。

数据团队有自己的需求层级,专注于确保数据的准确性。与大大小小的公司中的数据工程师和数据科学家合作过后,我将如何描述数据团队对数据质量的需求层级,从基础的数据新鲜度开始,我们首先确定是否拥有我们需要的数据。


我们的前 3 个课程推荐

1. 谷歌网络安全证书 - 快速入门网络安全职业。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能。

3. 谷歌 IT 支持专业证书 - 支持你组织的 IT。


理想情况下,团队应具备工具来衡量这些层级中的数据质量。

数据质量需求层级

数据团队的需求层级。

第 1 层:数据新鲜度

为了拥有高质量的数据,首先必须确保我们拥有数据。

你的管道运行了吗?如果是,什么时候?管道是否产生了新数据,还是产生了与上一次运行相同的数据?为了检查过时的数据,必须仔细且广泛地识别被卡住的数据流。很容易检测到没有更新,但在许多情况下,序列号或时间戳的移动并不意味着其他数据也已经移动。

第 2 层:数据量

一旦确定了数据的新鲜度,接下来需要关注的是数据量。我们可能会问如下问题:

  • 数据量是否符合我们的预期?

  • 如果数据量有所变化,它们是否符合我们在业务中已经观察到的趋势,例如周末或深夜活动较少?

在一些业务中,如零售商,节假日和节前可能会有不同的数据量。根据应用的不同,分析数据量可能需要考虑多个特征的强大数据模型。

第 3 层:数据模式

接下来是数据的布局:字段名称及其类型。在我与数据团队的工作中,我见过多种跟踪这些信息的方法,从使用存储在字符串字段中的 JSON 数据,到在支持的系统中使用子记录数据类型,例如 BigQuery。在决定采用何种方法时,有许多因素需要考虑,但通常关键关注点集中在缺失的数据列或关键字段上。

对于类型检查,我的建议是谨慎进行。在开发和生产环境中,许多字符串实际上是日期或数字。你可能需要考虑将类型“提升”到它们的最佳表示。这意味着在混合类型字段中,如果适用,你将为数值和字符串构建不同的模型。

第 4 层:数据值

最后,我们需要考虑数据值本身的内容。要评估数据质量,你需要推断类别,如果值的唯一性相对于总体大小较低。

对于字符串,我们计算了多种潜在模型,以便区分和捕捉新类型的字符串,而不被简单问题如值是否为 null 或字符串长度困扰。

第 5 层:使用元数据进行血统标记

调试数据流常常会引出这样的问题:“为什么这个字段有这个值?”

在过去构建数据管道的经历中,我一再遇到这个问题。我的解决方案是通过添加解释原因的字段来增强数据,在这些字段中我可以嵌入各种元数据:人类可读的解释、脚本文件名称和行号、其他变量,或我后来调试问题所需的任何信息。“我将其标记为缺货,因为两个数据源表示缺货,即使我们的第三个数据源说我们有 1,000 个”是检查单个记录时非常有用的信息。

不是每个人都有机会附加大量元数据,但如果你能做到这一点,你应该这么做。如果你考虑使用可以自动发现数据字段问题的工具,请注意,这些工具也可以分析你的新元数据字段,从而生成元数据警报,提醒你背后新的行为(如果需要的话)。

充分利用你的数据质量需求层级

这里需要记住的是,这个层级确实是一个层级。所有的事情都始于数据的新鲜度。如果你在层级的所有上层分析的数据都是陈旧的,你会对数据质量产生虚假的自信。你会认为今天的数据很好,实际上你只是重复分析上周三的数据。

一旦你确保了数据的新鲜度,你就可以确保你拥有所有数据,理解它的模式,等等。

  • 我建议数据团队确保他们为每个层次提供了工具,并能够单独跟踪这些层次。然后,当所有层次都报告出色的结果时,你就会知道你已经满足了层次结构中的所有需求。对于繁忙的数据团队而言,这本身是一种超越。即使是马斯洛也会感到满意。

**米奇·海尔**是 Data Culpa, Inc.的首席技术官。他在零售数据、机器生成数据、计算机视觉和分析应用的数据管道工作中积累了超过十五年的经验。他还具有构建复杂数据中心环境解决方案的经验,并曾帮助开发数据领域、Pancetera(出售给量子公司)和 Conjur(出售给 CyberArk)的产品。米奇还是超过 25 项数据压缩、数据优化和数据安全发明的共同发明人。

了解更多相关话题