谁负责数据质量? 分析团队的责任矩阵

已发表: 2022-06-11

由于低质量数据会使任何进一步的操作(例如计算归因、向广告服务发送投标或构建报告)变得无用,因此确保数据质量仍然是数字分析中的最大挑战。 通常说分析师应对所有与数据相关的问题负责。 但这是真的吗?

谁负责公司的数据质量? 与普遍的看法相反,不仅仅是分析师。 例如,营销人员使用 UTM 标签,工程师应用跟踪代码等。因此,在处理数据时出现混乱也就不足为奇了:每个员工都有很多任务,不清楚谁在做什么,谁负责什么,以及谁应该被问到结果。

在本文中,我们试图了解谁负责每个阶段的数据质量以及如何管理它。

目录

  • 数据工作流
    • 1. 收集原始数据
    • 2. 将数据导入数据仓库
    • 3.准备SQL视图
    • 4. 准备业务数据
    • 5. 准备数据集市
    • 6. 可视化数据
  • 关键要点
  • 有用的链接

数据工作流

即使在一家公司内,数据世界也可能充满差异和误解。 要为业务用户提供优质数据并避免丢失有价值的数据,您需要计划收集所有必要的营销数据。 通过准备数据工作流,您可以演示所有部门的同事之间的数据是如何关联的,因此可以很容易地连接这些点。 然而,这只是第一步。 让我们看看为报告和仪表板准备数据的其他步骤:

  1. 设置主要数据收集。
  2. 将原始数据收集到数据存储或数据库中。
  3. 将原始数据转换为业务就绪数据,并带有标记,经过清理并采用业务可以理解的结构。
  4. 准备一个数据集市——一个平面结构,用作数据可视化的数据源。
  5. 可视化仪表板的数据。

然而,无论如何准备,决策者经常会遇到数据质量较差的报告或仪表板。 他们做的第一件事就是向分析师提出问题:为什么会有差异? 或者这里的数据是否相关?

然而,现实情况是,这些过程涉及不同的专家:数据工程师参与建立分析系统,营销人员添加 UTM 标签,用户输入数据。 让我们详细看看您应该经历哪些阶段以及应该如何实施这些阶段才能为用户提供高质量的数据。

我们的客户
生长 22%

通过衡量在您的营销中最有效的方法来更快地增长

分析您的营销效率,找到增长领域,提高投资回报率

获取演示

1. 收集原始数据

虽然这一步看起来最简单,但也有一些隐藏的障碍。 首先,您必须计划从所有来源收集所有数据,并考虑所有客户接触点。 有时会跳过这个计划步骤,但这样做是不合理且有风险的。 采用非结构化方法会导致获得不完整或不正确的数据。

主要挑战是您必须从您使用的不同广告平台和服务收集碎片数据。 由于在最短的时间内处理海量数据数组是复杂且资源密集的,让我们看看可能会出现哪些瓶颈:

  • 并非所有页面都安装了 GTM 容器,因此数据不会发送到 Google Analytics。
  • 在广告平台上创建了一个新帐户,但没有通知分析师,也没有从中收集数据。
  • API 不支持 UTM 标签中的动态参数,也不收集或传输它们。
  • 连接谷歌云项目的卡资金或信用不足。
  • 用户输入的数据验证不正确。

在此步骤中,除了所有其他挑战之外,您还必须考虑控制对数据的访问。 为此,我们建议使用经典的 RACI 矩阵,该矩阵定义流程的角色,并强调谁执行、控制、管理和负责什么。 以下是可能的角色:

  • R (Responsible) — 负责并执行特定流程的人
  • C (Consulted)——咨询并提供必要数据以实施流程的人
  • A (Accountable or Approver)——对工作结果负责的人
  • I (Informed)——必须被告知工作进展的人

根据 RACI 矩阵,数据收集的角色和职责如下所示:

2. 将数据导入数据仓库

下一步是决定在哪里存储所有获得的数据。 如果您想在不修改原始数据的情况下完全控制它,我们建议您使用具有自动数据导入功能的单一存储。 由于使用您自己的服务器来存储每个字节的数据将花费一大笔钱,我们建议使用云解决方案来节省您的资源并提供对无处不在的数据的访问。

这项任务的最佳选择是 Google BigQuery,因为它考虑了营销人员的需求,可用于存储来自网站、CRM 系统、广告平台等的原始数据。如今,有大量的营销软件解决方案。 我们推荐 OWOX BI,它会自动将来自不同服务和网站的数据收集到数据仓库(或数据湖)中。

让我们看看在收集原始数据时会出现哪些经典错误:

  • 广告服务的 API 已更改。 因此,数据格式也发生了变化。
  • 外部服务 API 不可用。 利益相关者在他们的个人账户中看到了某些数字,但同一广告服务的 API 提供了其他数据。 此数据不匹配,因为与任何分布式系统一样,广告服务 API 的数据源与 Web 门户的数据源不同。
  • 外部服务的 Web 界面和 API 中的数据是不同的。 文档和数据处理格式可以不同。 例如,一种流行的广告服务中的一个有趣的错误是,当费用不存在和实际为零时,费用都为零。 所有数据工程师和分析师都知道Null是不同的值,处理方式也不同。 在一种情况下,这些费用可能会出现并且必须再次请求,而零表示它们确实不存在并且被计为零。
  • 外部服务的 API 提供了不正确的数据。

根据矩阵,在此过程中,营销人员是顾问和知识来源:例如,了解您需要从哪些帐户下载数据、UTM 标签是什么以及广告活动的标记。

也有开发者想知道如果使用谷歌标签管理器,容器会发生什么变化,因为他们对网站的下载速度负责。

此时,数据工程师已经在扮演负责的角色,因为他们正在配置数据管道。 分析师对工作结果负责。 即使一名员工执行这些职能,实际上也会有两个角色。 因此,如果公司只有一名分析师,我们仍然建议按角色实施矩阵。 然后,随着公司的发展,你会有一个新同事的职位描述,并且清楚地知道特定角色的职责是什么。

在这个阶段,利益相关者有兴趣了解哪些数据可用以及其质量存在哪些问题,因为它确定了旨在收集数据的优先事项和资源。 例如,OWOX BI 数据监控功能被我们的客户广泛应用。

3.准备SQL视图

数据准备是下一步。 它通常被称为数据集市准备——这是一个包含将在仪表板上显示的参数和指标的平面结构。 工具、预算和时间有限的分析师通常会跳过准备业务数据的阶段,立即准备数据集市。 它看起来像是在数据仓库中收集的原始数据。 然后,还有一百万种不同的 SQL 查询以及 Python 和 R 脚本——这种混乱会导致仪表板上出现一些问题。

如果您一直跳过准备业务数据的准备工作,则会导致重复出现的错误,需要在每个来源中进行更正。 其他可能出错的事情包括:

  • 原始数据中的常规错误
  • 在所有 SQL 查询中重复的业务逻辑
  • 查找数据差异的原因需要大量时间
  • 改进现有数据集市的时间与重写请求的时间相当
  • 客户无法理解的报告逻辑

最简单和最常见的错误示例是新用户返回用户的定义。 大多数企业不像谷歌分析那样做出这种区分。 因此,用户类型定义的逻辑经常在不同的报表中重复出现。 常见的错误还包括难以理解的报告逻辑。 业务客户在查看报告时首先要问的是它是如何构建的,它基于什么假设,为什么使用数据等等。 因此,业务数据的准备是一个绝对不能跳过的阶段。 从原始数据构建数据集市就像在吃蔬菜和水果之前不洗。

如果我们根据矩阵分配职责,那么对于数据准备,我们将得到:

4. 准备业务数据

业务就绪数据是与业务模型相对应的经过清理的最终数据集。 它是可以发送到任何数据可视化服务(Power BI、Tableau、Google Data Studio 等)的现成数据。

自然,不同的企业以不同的模式运作。 例如,“用户”、“B2B 用户”、“交易”、“潜在客户”等的定义对于不同的公司意味着不同的含义。 这些业务对象实际上回答了企业如何从数据方面考虑其业务模型的问题。 这是对业务核心的描述,而不是 Google Analytics 中的事件结构。

数据模型允许所有员工同步并大致了解数据的使用方式以及对数据的理解。 因此,将原始数据转换为业务就绪数据是不可跳过的重要阶段。

在这个阶段可能会出现什么问题:

  • 不清楚公司拥有/使用哪种数据模型
  • 难以准备和维护模拟数据
  • 难以控制转换逻辑的变化

在这里,您需要决定选择哪种数据模型以及如何控制数据转换逻辑的变化。 因此,这些是变革过程中参与者的角色:

利益相关者不再只是被告知,而是成为顾问。 他们做出决定,例如应该将什么理解为新用户或返回用户。 分析师在这个阶段的任务是让利益相关者尽可能多地参与做出这些决策。 否则,可能发生的最好的事情是分析师将被要求重做报告。

根据我们的经验,一些公司仍然没有准备业务就绪数据并在原始数据上构建报告。 这种方法的主要问题是无休止地调试和重写 SQL 查询。 从长远来看,使用准备好的数据比在原始数据上一遍又一遍地做同样的事情更便宜、更容易。

OWOX BI 自动从不同来源收集原始数据并将其转换为报告友好的格式。 因此,您会收到现成的数据集,这些数据集会自动转换为所需的结构,同时考虑到对营销人员很重要的细微差别。 您不必花时间开发和支持复杂的转换、深入研究数据结构并花费数小时寻找差异的原因。

预订免费演示,了解 OWOX BI 如何协助准备业务数据,以及您如何从当今的全自动数据管理中受益。

预约演示

5. 准备数据集市

下一阶段是准备数据集市。 简而言之,这是一个准备好的表格,其中包含特定部门的某些用户所需的确切数据,这使得它更容易应用。

为什么分析师需要数据集市,为什么不跳过这个阶段? 没有分析技能的营销人员和其他员工发现很难处理原始数据。 分析师的任务是以最方便的形式为所有员工提供对数据的访问,这样他们就不必每次都编写复杂的 SQL 查询。

数据集市有助于解决这个问题。 确实,如果填写得当,它将准确地包括某个部门工作所需的数据切片。 同事们将确切地知道如何使用这样的数据库,并将了解其中提供的参数和指标的上下文。

准备数据集市时可能出现问题的主要情况是:

  • 数据合并逻辑是不可理解的。 例如,可能有来自移动应用程序和网站的数据,您需要决定如何合并它以及使用哪些键,或者决定如何将广告活动与移动应用程序中的活动合并。 有很多问题。 通过在准备业务数据时做出这些决定,我们只做了一次,它们的价值比现在为特定报告临时做出的决定更大。 这种临时决定必须反复做出。
  • 由于数据仓库技术限制,SQL 查询无法运行。 准备业务数据是清理数据并将其引入模拟结构的一种方法,这将使处理和加速查询的成本更低。
  • 目前尚不清楚如何检查数据质量。

我们根据矩阵看看现阶段谁负责什么:

很明显,数据准备是数据分析师以及利益相关者和数据工程师的责任,他们是过程中的顾问。 请注意,OWOX BI 分析师可以为您处理此任务。 我们可以收集和合并数据,为您的业务模型建模,并准备一个数据集市,并附有详细的说明和构建逻辑的描述,允许您在必要时进行更改(例如,添加新字段)。

6. 可视化数据

在报告和仪表板中直观地呈现数据是一切实际开始的最后阶段。 显然,数据应该以信息丰富且用户友好的方式呈现。 更不用说自动化和正确配置的可视化显着减少了查找风险区域、问题和增长可能性的时间。

如果您已准备好业务就绪数据和数据集市,则可视化不会有任何困难。 但是,也可能出现错误,例如:

  • 数据集市中的不相关数据。 如果企业不确定数据质量,那么即使数据质量很高,企业客户的第一步也是要求分析师仔细检查所有内容。 这是低效的。 很明显,企业希望免受错误的影响,而不是急于下结论。 因此,高质量的数据是以后有人使用的保证。
  • 选择了不正确的数据可视化方法。
  • 没有向客户正确解释度量和参数计算的逻辑。 通常,对于不使用 SQL 和指标来正确解释数据的业务客户,他们需要了解每个指标在报告上下文中的含义、计算方式以及原因。 分析师不应忘记,任何使用该报告的人都应该能够获得对报告背后内容、报告核心假设等的解释。

根据 RACI 矩阵,分析师已经具有双重角色——批准者负责人。 利益相关者是这里的顾问,他们很可能已经提前回答了他们计划做出什么决定以及他们想要测试什么假设的问题。 这些假设构成了分析师工作的可视化设计的基础。

关键要点

RACI 矩阵不能回答有关使用数据的所有可能问题,但它绝对可以简化您公司中数据流的实施和应用。

由于不同角色的人参与数据流的不同阶段,因此假设分析师对数据质量负全部责任是错误的。 数据质量也是参与数据标记、交付、准备或管理决策的所有同事的责任。

所有数据的质量总是很差,不可能永久消除数据差异,使数据保持一致,消除噪音和重复。 这种情况总是会发生,尤其是在像营销这样快速且动态变化的数据现实中。 但是,您可以主动识别这些问题并设定目标以使您的数据质量为人所知。 例如,您可以获得以下问题的答案:数据何时更新? 可用数据的粒度是多少? 我们知道数据中的哪些错误? 我们可以使用哪些指标?

对于那些想为提高公司数据质量做出贡献的人,我们推荐三个简单的步骤:

  1. 创建数据流模式。 例如,使用 Miro 并勾勒出您的公司如何使用数据。 您会惊讶地发现,在一家公司内对这种模式有多少不同的看法。
  2. 建立一个责任矩阵并就谁负责什么达成一致,至少在纸面上是这样。
  3. 描述业务数据模型。

OWOX BI 团队拥有多年的专业知识,知道如何分配职责以及分析师需要什么。 基于这些知识,我们为分析师团队准备了责任分配矩阵模板。

获取矩阵

此外,OWOX BI 团队可以帮助您配置和自动化本文中描述的所有数据步骤。 如果您需要任何这些任务的帮助或想要审核您的分析和数据质量系统,请预订演示。

有用的链接

  1. 暗数据:为什么你不知道的东西很重要 David J. Hand
  2. 信号与噪音:为什么这么多预测都失败了——但有些预测失败了 Nate Silver
  3. Dan Ariely 博士的《可预见的非理性》
  4. 非理性猿:为什么我们会因虚假信息、阴谋论和宣传而堕落大卫·罗伯特·格兰姆斯
  5. Antriksh Goel 的“数据生态系统”体验