누가 데이터 품질을 책임지고 있습니까? 분석 팀을 위한 책임 매트릭스

게시 됨: 2022-06-11

품질이 낮은 데이터는 추가 작업(예: 귀속 계산, 광고 서비스에 입찰가 전송 또는 보고서 작성)을 쓸모없게 만들 수 있으므로 데이터 품질을 보장하는 것은 디지털 분석에서 계속해서 가장 큰 과제입니다. 분석가는 모든 데이터 관련 문제에 대한 책임이 있다고 말하는 것이 일반적입니다. 그러나 이것이 사실입니까?

회사에서 데이터 품질을 책임지는 사람은 누구입니까? 대중의 믿음과 달리 분석가만 있는 것은 아닙니다. 예를 들어 마케터는 UTM 태그로 작업하고 엔지니어는 추적 코드 등을 적용합니다. 따라서 데이터 작업 시 혼란이 발생하는 것은 놀라운 일이 아닙니다. 각 직원은 많은 작업을 수행하고 누가 무엇을 하는지, 누가 무엇을 책임지고, 누가 결과를 요구해야 하는지.

이 글에서는 각 단계에서 누가 데이터 품질을 책임지고 어떻게 관리하는지 알아보려고 한다.

데이터 워크플로

한 회사 내에서도 데이터의 세계는 불일치와 오해로 가득 차 있을 수 있습니다. 비즈니스 사용자에게 양질의 데이터를 제공하고 귀중한 데이터를 놓치지 않으려면 필요한 모든 마케팅 데이터 수집을 계획해야 합니다. 데이터 워크플로를 준비하여 데이터가 모든 부서의 동료와 어떻게 관련되어 있는지 보여주어 점을 쉽게 연결할 수 있습니다. 그러나 이는 첫 번째 단계일 뿐입니다. 보고서 및 대시보드용 데이터를 준비하는 다른 단계를 살펴보겠습니다.

기본 데이터 수집을 설정합니다.
원시 데이터를 데이터 저장소 또는 데이터베이스에 수집합니다.
원시 데이터를 마크업이 있는 비즈니스용 데이터로 변환하고 비즈니스에서 이해할 수 있는 구조로 정리합니다.
데이터 시각화를 위한 데이터 소스 역할을 하는 평면 구조인 데이터 마트를 준비합니다.
대시보드에 대한 데이터를 시각화합니다.

그러나 모든 준비에 관계없이 의사 결정자는 종종 품질이 좋지 않은 데이터가 포함된 보고서 또는 대시보드를 접하게 됩니다. 그리고 그들이 가장 먼저 하는 일은 분석가에게 다음과 같은 질문을 하는 것입니다. 불일치가 있는 이유는 무엇입니까? 또는 데이터가 여기에 관련이 있습니까?

그러나 현실은 이러한 프로세스에 다양한 전문가가 참여한다는 것입니다. 데이터 엔지니어는 분석 시스템 설정에 참여하고, 마케터는 UTM 태그를 추가하고, 사용자는 데이터를 입력합니다. 사용자에게 고품질 데이터를 제공하기 위해 어떤 단계를 거쳐야 하는지, 어떻게 구현해야 하는지 자세히 알아보겠습니다.

우리의 클라이언트
자라다 22% 더 빠름

마케팅에서 가장 효과적인 것을 측정하여 더 빠르게 성장

마케팅 효율성 분석, 성장 영역 찾기, ROI 증가

데모 받기

1. 기본 데이터 수집

이 단계가 가장 쉬워 보이지만 몇 가지 숨겨진 장애물이 있습니다. 우선 모든 고객 접점을 고려하여 모든 소스에서 모든 데이터를 수집할 계획을 세워야 합니다. 때때로 이 계획 단계를 건너뛰지만 그렇게 하는 것은 비합리적이고 위험합니다. 구조화되지 않은 접근 방식을 취하면 불완전하거나 잘못된 데이터를 얻게 됩니다.

주요 과제는 함께 작업하는 다양한 광고 플랫폼 및 서비스에서 조각난 데이터를 수집해야 한다는 것입니다. 가능한 한 최단 시간에 방대한 데이터 어레이를 처리하는 것은 복잡하고 리소스를 많이 사용하므로 어떤 병목 현상이 나타날 수 있는지 살펴보겠습니다.

모든 페이지에 GTM 컨테이너가 설치되어 있는 것은 아니므로 데이터가 Google Analytics로 전송되지 않습니다.
광고 플랫폼에 새 계정이 생성되지만 분석가에게 알리지 않고 데이터가 수집되지 않습니다.
API는 UTM 태그의 동적 매개변수를 지원하지 않으며 이를 수집하거나 전송하지 않습니다.
Google Cloud 프로젝트에 연결된 카드의 자금 또는 신용이 충분하지 않습니다.
사용자가 입력한 데이터의 잘못된 유효성 검사.

이 단계에서 다른 모든 문제 중에서 데이터에 대한 액세스 제어를 고려해야 합니다. 이를 위해 프로세스의 역할을 정의하고 누가 무엇을 수행, 제어, 관리 및 책임지는지를 강조하는 기존 RACI 매트릭스를 사용하는 것이 좋습니다. 가능한 역할은 다음과 같습니다.

R (Responsible) — 특정 프로세스를 책임지고 실행하는 사람
C (Consulted) — 프로세스를 구현하는 데 필요한 데이터를 상담하고 제공하는 사람
A (담당자 또는 승인자) — 작업 결과를 책임지는 사람
I (Informed) — 작업 진행 상황을 알려야 하는 사람

RACI 매트릭스에 따르면 데이터 수집에 대한 역할과 책임은 다음과 같습니다.

2. 데이터 웨어하우스로 데이터 가져오기

다음 단계는 얻은 모든 데이터를 저장할 위치를 결정하는 것입니다. 원시 데이터를 수정하지 않고 완벽하게 제어하려면 자동화된 데이터 가져오기가 있는 단일 저장소를 사용하는 것이 좋습니다. 모든 데이터 바이트를 저장하기 위해 자체 서버를 사용하는 것은 많은 비용이 들므로 리소스를 절약하고 어디에서나 데이터에 대한 액세스를 제공하는 클라우드 솔루션을 사용하는 것이 좋습니다.

이 작업에 가장 적합한 옵션은 Google BigQuery입니다. 마케터의 요구 사항을 고려하고 웹사이트, CRM 시스템, 광고 플랫폼 등의 원시 데이터를 저장하는 데 사용할 수 있기 때문입니다. 오늘날 수많은 마케팅 소프트웨어 솔루션이 있습니다. 다양한 서비스와 웹사이트에서 자동으로 데이터를 데이터 웨어하우스(또는 데이터 레이크)로 수집하는 OWOX BI를 권장합니다.

원시 데이터를 수집할 때 발생할 수 있는 일반적인 오류를 살펴보겠습니다.

광고 서비스의 API가 변경되었습니다. 이에 따라 데이터 형식도 변경되었습니다.
외부 서비스 API를 사용할 수 없습니다. 이해 관계자는 개인 계정에서 특정 숫자를 볼 수 있지만 동일한 광고 서비스의 API는 다른 데이터를 제공합니다. 이 데이터는 일치하지 않습니다. 다른 분산 시스템과 마찬가지로 광고 서비스 API의 데이터 소스가 웹 포털의 데이터 소스와 다르기 때문입니다.
외부 서비스의 웹 인터페이스와 API의 데이터가 다릅니다. 문서 및 데이터 처리 형식은 다를 수 있습니다. 예를 들어, 인기 있는 광고 서비스 중 하나에서 흥미로운 실수는 비용이 존재하지 않을 때와 실제로 0일 때 모두 비용이 0이라는 것입니다. 모든 데이터 엔지니어와 분석가는 0 과 Null 이 다른 값이며 다르게 처리된다는 것을 알고 있습니다. 어떤 경우에는 이러한 비용이 나타날 수 있으며 다시 요청해야 하며 0은 실제로 존재하지 않고 0으로 계산됨을 의미합니다.
외부 서비스의 API가 잘못된 데이터를 제공합니다.

매트릭스에 따르면 이 프로세스에서 마케터는 컨설턴트이자 지식의 원천입니다. 예를 들어 데이터를 다운로드해야 하는 계정, UTM 태그가 무엇인지, 광고 캠페인에 대한 마크업에 대한 지식이 있습니다.

또한 웹사이트의 다운로드 속도를 책임지는 개발자이기 때문에 Google 태그 관리자를 사용하면 컨테이너에 어떤 변경 사항이 발생하는지 알고 싶어하는 개발자도 있습니다.

이 시점에서 데이터 엔지니어는 데이터 파이프라인을 구성하고 있기 때문에 이미 책임 있는 역할을 수행하고 있습니다. 그리고 분석가는 작업 결과에 대한 책임이 있습니다. 한 명의 직원이 이러한 기능을 수행하더라도 실제로는 두 가지 역할이 있습니다. 따라서 회사에 분석가가 한 명뿐인 경우에도 역할별로 매트릭스를 구현하는 것이 좋습니다. 그런 다음 회사의 성장과 함께 새 동료에 대한 직무 설명을 갖게 되며 특정 역할에 대한 책임이 무엇인지 명확해질 것입니다.

이 단계의 이해 관계자는 데이터 수집을 목표로 하는 우선 순위와 리소스를 식별하므로 사용 가능한 데이터와 품질에 어떤 문제가 있는지 아는 데 관심이 있습니다. 예를 들어, OWOX BI 데이터 모니터링 기능은 고객이 광범위하게 적용합니다.

3. SQL 보기 준비

데이터 준비는 다음 단계입니다. 이는 종종 데이터 마트 준비라고 하며 대시보드에 표시될 매개변수와 메트릭이 포함된 평면 구조입니다. 도구, 예산, 시간이 제한된 분석가는 종종 비즈니스 데이터 준비 단계를 건너뛰고 즉시 데이터 마트를 준비합니다. 데이터 웨어하우스에서 수집된 원시 데이터처럼 보입니다. 그런 다음 Python 및 R 스크립트와 함께 백만 개의 다른 SQL 쿼리가 있으며 이 혼란으로 인해 대시보드에 무언가가 표시됩니다.

비즈니스용 데이터 준비를 계속 건너뛰면 각 소스에서 수정해야 하는 반복적인 오류가 발생합니다. 잘못될 수 있는 기타 사항은 다음과 같습니다.

기본 데이터의 정기적인 오류
모든 SQL 쿼리에서 비즈니스 로직이 중복됨
데이터 불일치의 원인을 찾는 데 많은 시간 필요
요청을 다시 작성하는 시간과 비교하여 기존 데이터 마트를 개선하는 데 걸리는 시간
고객이 이해할 수 없는 보고 논리

실수의 가장 간단하고 일반적인 예는 새 사용자 와 반환된 사용자 의 정의입니다. 대부분의 기업은 Google Analytics와 같은 방식으로 이러한 구분을 하지 않습니다. 따라서 사용자 유형 정의의 논리는 종종 다른 보고서에서 중복됩니다. 빈번한 오류에는 이해할 수 없는 보고 논리도 포함됩니다. 비즈니스 고객이 보고서를 볼 때 가장 먼저 묻는 것은 보고서가 어떻게 작성되었는지, 어떤 가정을 기반으로 했는지, 데이터가 사용된 이유 등입니다. 따라서 비즈니스 데이터의 준비는 절대 건너뛸 수 없는 단계입니다. 원시 데이터에서 데이터 마트를 구축하는 것은 야채와 과일을 먹기 전에 씻지 않는 것과 같습니다.

매트릭스에 따라 책임을 할당하면 데이터 준비를 위해 다음을 얻을 수 있습니다.

4. 비즈니스용 데이터 준비

비즈니스 준비 데이터는 비즈니스 모델에 해당하는 정리된 최종 데이터 세트입니다. 모든 데이터 시각화 서비스(Power BI, Tableau, Google Data Studio 등)로 보낼 수 있는 기성 데이터입니다.

당연히 다른 비즈니스는 다른 모델로 운영됩니다. 예를 들어 "사용자", "B2B 사용자", "트랜잭션, 리드" 등의 정의는 회사마다 의미가 다릅니다. 이러한 비즈니스 개체는 실제로 비즈니스가 데이터 측면에서 비즈니스 모델에 대해 생각하는 방식에 대한 질문에 답합니다. 이것은 Google Analytics의 이벤트 구조가 아니라 핵심 비즈니스에 대한 설명입니다.

데이터 모델을 사용하면 모든 직원이 데이터를 동기화하고 데이터가 사용되는 방식과 데이터에 대해 이해하는 내용을 전반적으로 이해할 수 있습니다. 따라서 원시 데이터를 비즈니스용 데이터로 변환하는 것은 건너뛸 수 없는 중요한 단계입니다.

이 단계에서 무엇이 잘못될 수 있습니까?

회사가 보유/사용하는 데이터 모델이 명확하지 않음
시뮬레이션된 데이터를 준비하고 유지하기가 어렵습니다.
변환 로직의 변화를 통제하기 어려움

여기에서 선택할 데이터 모델과 데이터 변환 논리의 변경 사항을 제어하는 방법을 결정해야 합니다. 따라서 변경 프로세스에서 참가자의 역할은 다음과 같습니다.

이해 관계자는 더 이상 정보를 얻는 것이 아니라 컨설턴트가 됩니다. 그들은 신규 또는 복귀 사용자로서 무엇을 이해해야 하는지와 같은 결정을 내립니다. 이 단계에서 분석가의 임무는 이러한 결정을 내리는 데 이해 관계자를 최대한 참여시키는 것입니다. 그렇지 않으면 분석가가 보고서를 다시 작성하도록 요청받을 수 있습니다.

우리 경험에 따르면 일부 회사는 여전히 비즈니스용 데이터를 준비하지 않고 원시 데이터에 대한 보고서를 작성하지 않습니다. 이 접근 방식의 주요 문제는 SQL 쿼리의 끝없는 디버깅 및 재작성입니다. 장기적으로 보면 원시 데이터에서 동일한 작업을 반복해서 수행하는 대신 준비된 데이터로 작업하는 것이 더 저렴하고 쉽습니다.

OWOX BI는 다양한 소스에서 원시 데이터를 자동으로 수집하여 보고하기 쉬운 형식으로 변환합니다. 결과적으로 마케터에게 중요한 뉘앙스를 고려하여 원하는 구조로 자동 변환되는 기성 데이터 세트를 받게 됩니다. 복잡한 변환을 개발 및 지원하고, 데이터 구조를 조사하고, 불일치의 원인을 찾는 데 시간을 할애할 필요가 없습니다.

무료 데모를 예약하여 OWOX BI가 비즈니스 데이터 준비를 지원하는 방법과 오늘날 완전히 자동화된 데이터 관리의 이점을 얻을 수 있는 방법을 확인하십시오.

데모 예약

5. 데이터 마트 준비

다음 단계는 데이터 마트를 준비하는 것입니다. 간단히 말해서 특정 부서의 특정 사용자가 필요로 하는 정확한 데이터를 포함하는 준비된 테이블이므로 훨씬 쉽게 적용할 수 있습니다.

분석가에게 데이터 마트가 필요한 이유는 무엇이며 이 단계를 건너뛰면 안 되는 이유는 무엇입니까? 분석 기술이 없는 마케터와 기타 직원은 원시 데이터로 작업하기가 어렵습니다. 분석가의 임무는 모든 직원이 가장 편리한 형식으로 데이터에 액세스할 수 있도록 하여 매번 복잡한 SQL 쿼리를 작성할 필요가 없도록 하는 것입니다.

데이터 마트는 이 문제를 해결하는 데 도움이 됩니다. 실제로 유능한 작성으로 특정 부서의 작업에 필요한 데이터 조각이 정확히 포함됩니다. 그리고 동료들은 그러한 데이터베이스를 사용하는 방법을 정확히 알고 여기에 제공된 매개변수와 메트릭의 컨텍스트를 이해할 것입니다.

데이터 마트를 준비할 때 문제가 발생할 수 있는 주요 사례는 다음과 같습니다.

데이터 병합 논리를 이해할 수 없습니다. 예를 들어 모바일 애플리케이션과 웹사이트의 데이터가 있을 수 있으며 이를 병합하는 방법과 키를 결정하거나 모바일 앱의 활동과 광고 캠페인을 병합하는 방법을 결정해야 합니다. 많은 질문이 있습니다. 비즈니스 데이터를 준비할 때 이러한 결정을 내림으로써 우리는 한 번만 내리며 그 가치는 지금 여기에서 특정 보고서에 대한 임시 결정보다 더 큽니다. 이러한 임시 결정은 반복적으로 이루어져야 합니다.
데이터 웨어하우스 기술 제한으로 인해 SQL 쿼리가 실행되지 않습니다. 비즈니스 데이터를 준비하는 것은 데이터를 정리하고 쿼리를 처리하고 속도를 높이는 데 비용을 절감할 수 있는 시뮬레이션된 구조로 가져오는 한 가지 방법입니다.
데이터 품질을 확인하는 방법이 명확하지 않습니다 .

매트릭스에 따라 이 단계에서 누가 무엇을 담당하는지 봅시다.

데이터 준비는 프로세스에서 컨설턴트인 이해 관계자 및 데이터 엔지니어와 함께 데이터 분석가의 책임임이 분명합니다. OWOX BI 분석가가 이 작업을 처리할 수 있습니다. 데이터를 수집 및 병합하고, 비즈니스 모델에 맞게 모델링하고, 빌드 로직에 대한 설명과 함께 자세한 지침과 함께 데이터 마트를 준비할 수 있으므로 필요한 경우 사용자 측에서 변경할 수 있습니다(예: 새 필드 추가).

6. 데이터 시각화

보고서와 대시보드에 데이터를 시각적으로 표시하는 것은 모든 것이 실제로 시작된 마지막 단계입니다. 분명히 데이터는 유익하고 사용자에게 친숙한 방식으로 제공되어야 합니다. 자동화되고 적절하게 구성된 시각화는 위험 영역, 문제 및 성장 가능성을 찾는 시간을 크게 줄여줍니다.

업무용 데이터와 데이터 마트만 준비했다면 시각화에 어려움은 없을 것입니다. 그러나 다음과 같은 실수도 나타날 수 있습니다.

데이터 마트에 관련 없는 데이터가 있습니다. 비즈니스가 데이터 품질에 대해 확신하지 못하는 경우 데이터의 품질이 우수하더라도 첫 번째 단계는 비즈니스 고객이 분석가에게 모든 것을 다시 확인하도록 요청하는 것입니다. 이것은 비효율적입니다. 기업이 실수로부터 보호받고 성급하게 결론을 내리지 않기를 원한다는 것은 분명합니다. 따라서 높은 품질의 데이터는 나중에 누군가가 사용할 것이라는 보장입니다.
잘못된 데이터 시각화 방법 선택.
고객에게 메트릭 및 매개변수 계산의 논리를 제대로 설명하지 않습니다. 종종 데이터를 올바르게 해석하기 위해 SQL 및 메트릭을 사용하지 않는 비즈니스 고객의 경우 보고서 컨텍스트에서 각 메트릭이 의미하는 바, 계산 방법 및 이유를 확인해야 합니다. 분석가는 보고서를 사용하는 모든 사람이 보고서 이면의 내용, 보고서의 핵심에 포함된 가정 등에 대한 설명에 액세스할 수 있어야 한다는 사실을 잊어서는 안 됩니다.

RACI 매트릭스에 따르면 분석가는 이미 승인자 와 책임 이라는 이중 역할을 하고 있습니다. 이해 관계자는 여기에서 컨설턴트 이며 어떤 결정을 내릴 계획이고 어떤 가설을 테스트하고 싶은지에 대한 질문에 미리 대답했을 가능성이 큽니다. 이러한 가설은 분석가가 작업하는 시각화 디자인의 기초를 형성합니다.

핵심 테이크아웃

RACI 매트릭스는 데이터 작업에 대한 모든 가능한 질문에 대한 답은 아니지만 회사에서 데이터 흐름의 구현 및 적용을 쉽게 할 수 있습니다.

서로 다른 역할을 하는 사람들이 데이터 흐름의 서로 다른 단계에 관여하기 때문에 분석가가 데이터 품질에 대해 전적으로 책임이 있다고 가정하는 것은 잘못된 것입니다. 데이터 품질은 데이터 마크업, 전달, 준비 또는 관리 결정에 관련된 모든 동료의 책임이기도 합니다.

모든 데이터는 항상 품질이 좋지 않으며 데이터 불일치를 영구적으로 제거하고 데이터 일관성을 유지하며 노이즈와 중복을 제거하는 것은 불가능합니다. 이것은 특히 마케팅과 같이 빠르고 동적으로 변화하는 데이터 현실에서 항상 발생합니다. 그러나 이러한 문제를 사전에 식별하고 데이터 품질을 알리기 위한 목표를 설정할 수 있습니다. 예를 들어, 다음과 같은 질문에 대한 답변을 얻을 수 있습니다 . 데이터가 언제 업데이트되었습니까? 데이터를 사용할 수 있는 단위는 무엇입니까? 우리가 알고 있는 데이터의 오류는 무엇입니까? 어떤 메트릭으로 작업할 수 있습니까?

회사의 데이터 품질 향상에 기여하려는 사람들에게는 다음 세 가지 간단한 단계를 권장합니다.

데이터 흐름 스키마를 만듭니다. 예를 들어 Miro를 사용하고 회사에서 데이터를 사용하는 방법을 스케치합니다. 한 회사 내에서 이 스키마에 대해 얼마나 많은 다른 의견이 있는지 놀라게 될 것입니다.
책임 매트릭스를 구성 하고 최소한 문서상으로 누가 무엇을 책임지는지에 대해 동의하십시오.
비즈니스 데이터 모델을 설명합니다.

다년간의 전문 지식을 보유한 OWOX BI 팀은 책임을 할당하는 방법과 분석가에게 필요한 것이 무엇인지 알고 있습니다. 이 지식을 바탕으로 분석 팀을 위한 책임 할당 매트릭스 템플릿을 준비했습니다.

행렬 가져오기

또한 OWOX BI 팀은 이 기사에서 설명하는 모든 데이터 단계를 구성하고 자동화하는 데 도움을 줄 수 있습니다. 이러한 작업에 도움이 필요하거나 분석 및 데이터 품질 시스템을 감사하려면 데모를 예약하세요.

유용한 링크

다크 데이터: 모르는 것이 중요한 이유 - David J. Hand
신호와 잡음: 많은 예측이 실패하는 이유 - Nate Silver
Dr. Dan Ariely의 예측할 수 없을 정도로 비합리적입니다.
비합리적인 원숭이: 왜 우리가 허위 정보, 음모 이론, 선전에 빠지는가(David Robert Grimes)
Antriksh Goel의 "데이터 생태계" 경험