Quem é responsável pela qualidade dos dados? Matriz de responsabilidade para equipes de análise
Publicados: 2022-06-11Como dados de baixa qualidade podem tornar inúteis outras ações (como calcular atribuição, enviar lances para serviços de publicidade ou criar relatórios), garantir a qualidade dos dados continua sendo o maior desafio na análise digital. É comum dizer que os analistas são responsáveis por todas as questões relacionadas a dados. Mas isso é verdade?
Quem é responsável pela qualidade dos dados em uma empresa? Ao contrário da crença popular, não são apenas os analistas. Por exemplo, profissionais de marketing trabalham com tags UTM, engenheiros aplicam códigos de rastreamento etc. Portanto, não é surpresa que ocorra o caos ao trabalhar com dados: cada funcionário tem muitas tarefas e não está claro quem está fazendo o quê, quem é responsável por quê e quem deve ser consultado sobre o resultado.
Neste artigo, tentamos entender quem é responsável pela qualidade dos dados em cada etapa e como gerenciá-la.
Índice
- Fluxo de trabalho de dados
- 1. Coletando dados primários
- 2. Importando dados para o data warehouse
- 3. Preparando a visualização SQL
- 4. Preparando dados prontos para negócios
- 5. Preparando o data mart
- 6. Visualizando dados
- Principais conclusões
- Links Úteis
Fluxo de trabalho de dados
Mesmo dentro de uma empresa, o mundo dos dados pode estar repleto de discrepâncias e mal-entendidos. Para capacitar os usuários de negócios com dados de qualidade e evitar a perda de dados valiosos, você precisa planejar a coleta de todos os dados de marketing necessários. Ao preparar o fluxo de trabalho de dados, você demonstra como os dados são relacionados aos colegas em todos os departamentos, facilitando a conexão dos pontos. No entanto, esse é apenas o primeiro passo. Vamos ver quais são as outras etapas na preparação de dados para relatórios e painéis:
- Configure a coleta de dados primários.
- Colete dados brutos no armazenamento de dados ou em um banco de dados.
- Transforme os dados brutos em dados prontos para os negócios, com marcação, limpos e em uma estrutura compreensível para os negócios.
- Prepare um data mart — uma estrutura plana que serve como fonte de dados para visualização de dados.
- Visualize dados para o painel.
No entanto, independentemente de toda a preparação, os tomadores de decisão geralmente encontram um relatório ou painel com dados de baixa qualidade. E a primeira coisa que fazem é dirigir-se ao analista com a pergunta: Por que há uma discrepância? ou Os dados são relevantes aqui?
No entanto, a realidade é que diferentes especialistas estão envolvidos nesses processos: engenheiros de dados estão envolvidos na configuração do sistema de análise, profissionais de marketing adicionam tags UTM, usuários inserem dados. Vamos ver em detalhes por quais etapas você deve passar e como elas devem ser implementadas para fornecer aos usuários dados de alta qualidade.
Nossos clientes
crescer 22% mais rápido
Cresça mais rápido medindo o que funciona melhor em seu marketing
Analise sua eficiência de marketing, encontre as áreas de crescimento, aumente o ROI
Obter demonstração1. Coletando dados primários
Embora esta etapa pareça a mais fácil, existem vários obstáculos ocultos. Em primeiro lugar, você deve planejar a coleta de todos os dados de todas as fontes, considerando todos os pontos de contato com o cliente. Às vezes, essa etapa de planejamento é ignorada, mas fazer isso não é razoável e arriscado. Adotar uma abordagem não estruturada leva à obtenção de dados incompletos ou incorretos.
O principal desafio é que você precisa coletar dados fragmentados de diferentes plataformas e serviços de publicidade com os quais trabalha. Como o processamento de matrizes de dados massivas no menor tempo possível é complicado e consome muitos recursos, vamos ver quais possíveis gargalos podem aparecer:
- Nem todas as páginas têm um contêiner GTM instalado e, portanto, os dados não são enviados ao Google Analytics.
- Uma nova conta em uma plataforma de publicidade é criada, mas os analistas não são informados e os dados não são coletados dela.
- Uma API não oferece suporte a parâmetros dinâmicos em tags UTM e não os coleta nem os transfere.
- O cartão conectado ao projeto do Google Cloud tem fundos ou crédito insuficientes.
- Validação incorreta dos dados inseridos por um usuário.
Durante esta etapa, entre todos os outros desafios, você deve considerar o controle do acesso aos dados. Para isso, recomendamos o uso da matriz RACI clássica que define os papéis dos processos e enfatiza quem faz, controla, gerencia e é responsável pelo quê. Aqui estão os papéis possíveis:
- R (Responsável) — alguém que é responsável e é o executor de um determinado processo
- C (Consultado) — uma pessoa que consulta e fornece os dados necessários para implementar o processo
- A (Responsável ou Aprovador) — alguém que é responsável pelo resultado do trabalho
- I (Informado) — pessoa que deve ser informada do andamento do trabalho
De acordo com a matriz RACI, as funções e responsabilidades para a coleta de dados são assim:
2. Importando dados para o data warehouse
O próximo passo é decidir onde armazenar todos os dados obtidos. Se você deseja obter controle total sobre seus dados brutos sem modificá-los, recomendamos o uso de um único armazenamento com importação automatizada de dados. Como usar seus próprios servidores para armazenar cada byte de dados custará uma fortuna, recomendamos o uso de soluções em nuvem que economizem seus recursos e forneçam acesso aos dados em qualquer lugar.
A melhor opção para essa tarefa é o Google BigQuery, pois considera as necessidades dos profissionais de marketing e pode ser usado para armazenar dados brutos de sites, sistemas de CRM, plataformas de publicidade etc. Hoje, existem inúmeras soluções de software de marketing. Recomendamos o OWOX BI, que coleta dados automaticamente em um data warehouse (ou data lake) de diferentes serviços e sites.
Vamos ver quais erros clássicos podem ocorrer ao coletar dados brutos:
- A API do serviço de publicidade mudou. Assim, o formato de dados também mudou.
- A API de serviço externo não está disponível. A parte interessada vê determinados números em sua conta pessoal, mas a API do mesmo serviço de publicidade fornece outros dados. Esses dados não coincidem porque, como em qualquer sistema distribuído, a fonte de dados da API do serviço de publicidade é diferente da fonte de dados do portal da web.
- Os dados na interface da Web e na API do serviço externo são diferentes. Os formatos de documentação e processamento de dados podem ser diferentes. Por exemplo, um erro interessante em um dos serviços de publicidade populares é que as despesas são zero tanto quando não existem quanto quando na verdade são zero. Todos os engenheiros e analistas de dados sabem que zero e Null são valores diferentes e são processados de forma diferente. Em um caso, essas despesas podem aparecer e devem ser solicitadas novamente, e zero significa que elas realmente não existem e são contabilizadas como zero.
- A API de um serviço externo fornece dados incorretos.
De acordo com a matriz, nesse processo, o profissional de marketing é um consultor e fonte de conhecimento: por exemplo, conhecimento sobre de quais contas você precisa baixar dados, quais são as tags UTM e marcação em campanhas publicitárias.
Há também desenvolvedores que querem saber quais mudanças aconteceriam nos containers se o Google Tag Manager fosse usado, pois eles são responsáveis pela velocidade de download do site.
Neste ponto, os engenheiros de dados já estão desempenhando a função responsável porque estão configurando pipelines de dados. E os analistas são responsáveis pelo resultado do trabalho. Mesmo que um funcionário desempenhe essas funções, haverá, na verdade, dois papéis. Portanto, se a empresa tiver apenas um analista, ainda recomendamos a implementação da matriz por funções. Então, com o crescimento da empresa, você terá uma descrição do trabalho para um novo colega e ficará claro quais são as responsabilidades de uma função específica.
A parte interessada nesta fase está interessada em saber quais dados estão disponíveis e quais são os problemas com sua qualidade, pois identifica prioridades e recursos destinados à coleta de dados. Por exemplo, o recurso OWOX BI Data Monitoring é amplamente aplicado por nossos clientes.
3. Preparando a visualização SQL
A preparação dos dados é o próximo passo. Geralmente é chamado de preparação de data mart — essa é uma estrutura simples que contém os parâmetros e métricas que serão apresentados no painel. Um analista limitado em ferramentas, orçamento e tempo muitas vezes pula o estágio de preparação de dados de negócios e prepara imediatamente um data mart. Parecem dados brutos coletados em um data warehouse. Então, há um milhão de consultas SQL diferentes junto com scripts Python e R – e essa bagunça resultará em algo no painel.
Se você continuar pulando a preparação de dados prontos para o negócio, isso levará a erros repetidos que precisam ser corrigidos em cada uma das fontes. Outras coisas que podem dar errado incluem:
- Erros regulares nos dados primários
- Lógica de negócios sendo duplicada em todas as consultas SQL
- Muito tempo necessário para encontrar as causas das discrepâncias de dados
- Tempo para refinar data marts existentes sendo comparável ao tempo para reescrever uma solicitação
- Lógica do relatório sendo incompreensível para o cliente
O exemplo mais simples e comum de erro é a definição de um novo usuário e de um usuário retornado . A maioria das empresas não faz essa distinção da mesma forma que o Google Analytics. Portanto, a lógica das definições de tipo de usuário geralmente é duplicada em relatórios diferentes. Erros frequentes também incluem lógica de relatório incompreensível. A primeira coisa que o cliente empresarial perguntará ao analisar o relatório é como ele foi construído, em quais suposições ele se baseou, por que os dados foram usados e assim por diante. Portanto, a preparação de dados de negócios é uma etapa que você definitivamente não deve pular. Construir um data mart a partir de dados brutos é como não lavar legumes e frutas antes de comê-los.
Se atribuirmos responsabilidades de acordo com a matriz, para preparação de dados, obteremos isso:
4. Preparando dados prontos para negócios
Os dados prontos para negócios são um conjunto de dados final limpo que corresponde ao modelo de negócios. São dados prontos que podem ser enviados para qualquer serviço de visualização de dados (Power BI, Tableau, Google Data Studio, etc.).
Naturalmente, negócios diferentes operam com modelos diferentes. Por exemplo, as definições de “usuários”, “usuários B2B”, “transações, “leads” etc. terão significados diferentes para empresas diferentes. Esses objetos de negócios realmente respondem à questão de como uma empresa pensa sobre seu modelo de negócios em termos de dados. Esta é uma descrição do negócio em sua essência e não a estrutura de eventos no Google Analytics.
O modelo de dados permite que todos os funcionários sincronizem e tenham uma compreensão geral de como os dados são usados e o que se entende sobre eles. Portanto, a conversão de dados brutos em dados prontos para os negócios é uma etapa importante que não pode ser ignorada.
O que pode dar errado nesta fase:
- Não está claro qual modelo de dados a empresa tem/usa
- Difícil de preparar e manter dados simulados
- Difícil de controlar as mudanças na lógica de transformação
Aqui, você precisa decidir qual modelo de dados escolher e como controlar as alterações na lógica da transformação de dados. Assim, estes são os papéis dos participantes no processo de mudança:
O stakeholder não é mais apenas informado, mas se torna um consultor. Eles tomam decisões como o que deve ser entendido como um usuário novo ou retornado. A tarefa do analista nesta fase é envolver as partes interessadas tanto quanto possível na tomada dessas decisões. Caso contrário, o melhor que pode acontecer é que o analista seja solicitado a refazer o relatório.
Em nossa experiência, algumas empresas ainda não preparam dados prontos para os negócios e criam relatórios sobre dados brutos. O principal problema com essa abordagem é a depuração e a reescrita intermináveis de consultas SQL. A longo prazo, é mais barato e mais fácil trabalhar com dados preparados em vez de rodar dados brutos fazendo sempre as mesmas coisas.
OWOX BI coleta automaticamente dados brutos de diferentes fontes e os converte em um formato amigável para relatórios. Como resultado, você recebe conjuntos de dados prontos que são transformados automaticamente na estrutura desejada, levando em consideração nuances importantes para os profissionais de marketing. Você não terá que gastar tempo desenvolvendo e suportando transformações complexas, mergulhar na estrutura de dados e passar horas procurando as causas das discrepâncias.
Reserve uma demonstração gratuita para ver como o OWOX BI auxilia na preparação de dados de negócios e como você pode se beneficiar do gerenciamento de dados totalmente automatizado hoje.
5. Preparando o data mart
A próxima etapa é preparar o data mart. Simplificando, esta é uma tabela preparada contendo os dados exatos necessários para determinados usuários de um determinado departamento, o que facilita muito a aplicação.
Por que os analistas precisam de um data mart e por que você não deve pular essa etapa? Profissionais de marketing e outros funcionários sem habilidades analíticas têm dificuldade em trabalhar com dados brutos. A tarefa do analista é fornecer a todos os funcionários acesso aos dados da forma mais conveniente para que eles não precisem escrever consultas SQL complexas todas as vezes.
Um data mart ajuda a resolver esse problema. De fato, com um preenchimento competente, incluirá exatamente a fatia de dados necessária para o trabalho de um determinado departamento. E os colegas saberão exatamente como usar esse banco de dados e entenderão o contexto dos parâmetros e métricas nele apresentados.
Os principais casos em que algo pode dar errado ao preparar o data mart são:
- A lógica de mesclagem de dados é incompreensível. Por exemplo, pode haver dados de um aplicativo móvel e de um site, e você precisa decidir como mesclá-los e por quais chaves, ou decidir como mesclar campanhas publicitárias com atividades em um aplicativo móvel. Há muitas perguntas. Ao tomar essas decisões ao preparar dados de negócios, nós as tomamos uma vez e seu valor é maior do que as decisões tomadas ad-hoc para um relatório específico aqui e agora. Tais decisões ad hoc devem ser feitas repetidamente.
- Uma consulta SQL não é executada devido a limitações técnicas do data warehouse. Preparar dados de negócios é uma maneira de limpar os dados e trazê-los para uma estrutura simulada que tornará mais barato processar e acelerar as consultas.
- Não está claro como verificar a qualidade dos dados .
Vamos ver quem é responsável pelo que nesta fase de acordo com a matriz:
É óbvio que a preparação de dados é responsabilidade dos analistas de dados, juntamente com as partes interessadas e engenheiros de dados, que são consultores no processo. Observe que os analistas de BI do OWOX podem lidar com essa tarefa para você. Podemos coletar e mesclar dados, modelá-los para o seu modelo de negócios e preparar um data mart acompanhado de instruções detalhadas com uma descrição da lógica de construção, permitindo que você faça alterações do seu lado, se necessário (por exemplo, adicionando novos campos).
6. Visualizando dados
A apresentação visual de dados em relatórios e dashboards é o estágio final para o qual tudo foi realmente iniciado. Obviamente, os dados devem ser apresentados de forma informativa e amigável. Sem contar que as visualizações automatizadas e configuradas corretamente reduzem significativamente o tempo para encontrar zonas de risco, problemas e possibilidades de crescimento.
Se você preparou dados prontos para negócios e um data mart, não terá dificuldades com visualizações. No entanto, também podem aparecer erros como:
- Dados irrelevantes no data mart. Se uma empresa não tiver certeza sobre a qualidade dos dados, mesmo que os dados sejam de alta qualidade, o primeiro passo é o cliente empresarial pedir ao analista que verifique tudo novamente. Isso é ineficiente. É claro que a empresa quer estar protegida de erros e não se apressar em tirar conclusões. Portanto, a alta qualidade dos dados é uma garantia de que alguém os usará mais tarde.
- Escolhendo um método de visualização de dados incorreto.
- Não explicar adequadamente ao cliente a lógica dos cálculos de métricas e parâmetros. Muitas vezes, para um cliente empresarial que não vive em SQL e métricas para interpretar corretamente os dados, eles precisam ver o que cada métrica significa no contexto do relatório, como é calculada e por quê. Os analistas não devem esquecer que qualquer pessoa que use o relatório deve ter acesso a uma explicação do que está por trás do relatório, quais suposições estavam no centro do relatório etc.
De acordo com a matriz RACI, o analista já possui dupla função — aprovador e responsável . O stakeholder é um consultor aqui e provavelmente já respondeu antecipadamente à pergunta sobre quais decisões planejam tomar e quais hipóteses desejam testar. Essas hipóteses formam a base para o desenho da visualização com a qual o analista trabalha.
Principais conclusões
A matriz RACI não responde a todas as possíveis perguntas sobre como trabalhar com dados, mas definitivamente pode facilitar a implementação e aplicação do fluxo de dados em sua empresa.
Como pessoas em diferentes funções estão envolvidas em diferentes estágios do fluxo de dados, é errado supor que o analista é o único responsável pela qualidade dos dados. A qualidade dos dados também é responsabilidade de todos os colegas envolvidos na marcação de dados, entrega, preparação ou decisões de gerenciamento.
Todos os dados são sempre de baixa qualidade e é impossível eliminar permanentemente as discrepâncias de dados, tornar os dados consistentes e livrá-los de ruído e duplicação. Isso sempre acontece, especialmente em uma realidade de dados tão rápida e dinâmica como o marketing. No entanto, você pode identificar esses problemas de forma proativa e definir uma meta para tornar conhecida a qualidade de seus dados. Por exemplo, você pode obter respostas para perguntas como: Quando os dados foram atualizados? Em que granularidade os dados estão disponíveis? Que erros nos dados conhecemos? e Com quais métricas podemos trabalhar?
Para quem deseja contribuir para melhorar a qualidade dos dados de sua empresa, recomendamos três passos simples:
- Crie um esquema de fluxo de dados. Por exemplo, use o Miro e esboce como sua empresa usa os dados. Você ficará surpreso com quantas opiniões diferentes existem sobre esse esquema dentro de uma empresa.
- Monte uma matriz de responsabilidade e concorde sobre quem é responsável pelo quê, pelo menos no papel.
- Descreva o modelo de dados de negócios.
Com muitos anos de experiência, a equipe de BI da OWOX sabe como as responsabilidades devem ser alocadas e o que é necessário para os analistas. Com base nesse conhecimento, preparamos um modelo de matriz de alocação de responsabilidades para equipes de analistas.
Obtenha a matriz
Além disso, a equipe OWOX BI pode ajudá-lo a configurar e automatizar todas as etapas de dados descritas neste artigo. Se você precisar de ajuda com qualquer uma dessas tarefas ou quiser auditar seu sistema de análise e qualidade de dados, agende uma demonstração.
Links Úteis
- Dark Data: Por que o que você não sabe importa por David J. Hand
- O sinal e o ruído: por que tantas previsões falham - mas algumas não por Nate Silver
- Previsivelmente Irracional por Dr. Dan Ariely
- O macaco irracional: por que caímos na desinformação, teoria da conspiração e propaganda por David Robert Grimes
- Uma experiência de um “ecossistema de dados” por Antriksh Goel