¿Quién es responsable de la calidad de los datos? Matriz de responsabilidad para equipos de análisis
Publicado: 2022-06-11Dado que los datos de mala calidad pueden hacer que otras acciones sean inútiles (como calcular la atribución, enviar ofertas a servicios de publicidad o crear informes), asegurar la calidad de los datos sigue siendo el mayor desafío en el análisis digital. Es común decir que los analistas son responsables de todos los problemas relacionados con los datos. ¿Pero es esto cierto?
¿Quién es responsable de la calidad de los datos en una empresa? Contrariamente a la creencia popular, no son sólo los analistas. Por ejemplo, los especialistas en marketing trabajan con etiquetas UTM, los ingenieros aplican códigos de seguimiento, etc. Por lo tanto, no sorprende que se produzca un caos al trabajar con datos: cada empleado tiene muchas tareas y no está claro quién hace qué, quién es responsable de qué y a quién se le debe preguntar el resultado.
En este artículo, tratamos de comprender quién es el responsable de la calidad de los datos en cada etapa y cómo administrarla.
Tabla de contenido
- Flujo de trabajo de datos
- 1. Recopilación de datos primarios
- 2. Importación de datos al almacén de datos
- 3. Preparando la vista SQL
- 4. Preparación de datos listos para el negocio
- 5. Preparando el data mart
- 6. Visualización de datos
- Conclusiones clave
- Enlaces útiles
Flujo de trabajo de datos
Incluso dentro de una empresa, el mundo de los datos puede estar lleno de discrepancias y malentendidos. Para empoderar a los usuarios comerciales con datos de calidad y evitar la pérdida de datos valiosos, debe planificar la recopilación de todos los datos de marketing necesarios. Al preparar el flujo de trabajo de datos, demuestra cómo se relacionan los datos para los colegas de todos los departamentos, de modo que sea fácil conectar los puntos. Sin embargo, ese es solo el primer paso. Veamos cuáles son los otros pasos en la preparación de datos para informes y paneles:
- Configure la recopilación de datos primarios.
- Recopile datos sin procesar en el almacenamiento de datos o en una base de datos.
- Convierta los datos sin procesar en datos listos para el negocio, con marcado, limpios y en una estructura comprensible para el negocio.
- Prepare un data mart: una estructura plana que sirva como fuente de datos para visualizar datos.
- Visualice datos para el tablero.
Sin embargo, independientemente de toda la preparación, los responsables de la toma de decisiones a menudo se encuentran con un informe o panel con datos de mala calidad. Y lo primero que hacen es dirigirse al analista con la pregunta: ¿Por qué hay discrepancia? o ¿Son los datos relevantes aquí?
Sin embargo, la realidad es que diferentes especialistas están involucrados en estos procesos: los ingenieros de datos se dedican a configurar el sistema de análisis, los especialistas en marketing agregan etiquetas UTM, los usuarios ingresan datos. Veamos en detalle qué etapas debe atravesar y cómo deben implementarse para brindar a los usuarios datos de alta calidad.
Nuestros clientes
crecer 22% más rápido
Crezca más rápido midiendo lo que funciona mejor en su marketing
Analice su eficiencia de marketing, encuentre las áreas de crecimiento, aumente el ROI
Obtener demostración1. Recopilación de datos primarios
Aunque este paso parece el más fácil, existen varios obstáculos ocultos. En primer lugar, debe planificar la recopilación de todos los datos de todas las fuentes, teniendo en cuenta todos los puntos de contacto con los clientes. A veces, este paso de planificación se omite, pero hacerlo es irrazonable y arriesgado. Adoptar un enfoque no estructurado conduce a obtener datos incompletos o incorrectos.
El principal desafío es que debe recopilar datos fragmentados de diferentes plataformas publicitarias y servicios con los que trabaja. Dado que procesar matrices de datos masivas en el menor tiempo posible es complicado y requiere muchos recursos, veamos qué posibles cuellos de botella pueden aparecer:
- No todas las páginas tienen instalado un contenedor GTM y, por lo tanto, los datos no se envían a Google Analytics.
- Se crea una nueva cuenta en una plataforma de publicidad, pero no se informa a los analistas y no se recopilan datos de ella.
- Una API no admite parámetros dinámicos en etiquetas UTM y no los recopila ni los transfiere.
- La tarjeta conectada al proyecto de Google Cloud no tiene fondos o crédito suficientes.
- Validación incorrecta de los datos introducidos por un usuario.
Durante este paso, entre todos los demás desafíos, debe considerar controlar el acceso a los datos. Para esto, recomendamos utilizar la clásica matriz RACI que define roles para los procesos y enfatiza quién hace, controla, administra y es responsable de qué. Estos son los posibles roles:
- R (Responsable): alguien que es responsable y es el ejecutor de un proceso en particular
- C (Consultado): una persona que consulta y proporciona los datos necesarios para implementar el proceso
- A (Responsable o Aprobador): alguien que es responsable del resultado del trabajo
- I (Informado) — una persona que debe ser informada del progreso del trabajo
De acuerdo con la matriz RACI, los roles y responsabilidades para la recopilación de datos se ven así:
2. Importación de datos al almacén de datos
El siguiente paso es decidir dónde almacenar todos los datos obtenidos. Si desea obtener un control completo sobre sus datos sin modificar, le recomendamos que utilice un único almacenamiento con importación de datos automatizada. Dado que usar sus propios servidores para almacenar cada byte de datos costará una fortuna, le recomendamos que use soluciones en la nube que ahorren sus recursos y brinden acceso a los datos en todas partes.
La mejor opción para esta tarea es Google BigQuery, ya que tiene en cuenta las necesidades de los especialistas en marketing y se puede utilizar para almacenar datos sin procesar de sitios web, sistemas de CRM, plataformas publicitarias, etc. Hoy en día, existen toneladas de soluciones de software de marketing. Recomendamos OWOX BI, que recopila automáticamente datos en un almacén de datos (o lago de datos) de diferentes servicios y sitios web.
Veamos qué errores clásicos pueden ocurrir al recopilar datos sin procesar:
- La API del servicio de publicidad ha cambiado. En consecuencia, el formato de datos también ha cambiado.
- La API de servicio externo no está disponible. El interesado ve ciertos números en su cuenta personal, pero la API del mismo servicio de publicidad da otros datos. Estos datos no coinciden porque, como en cualquier sistema distribuido, la fuente de datos de la API del servicio de publicidad es diferente de la fuente de datos del portal web.
- Los datos en la API y la interfaz web del servicio externo son diferentes. Los formatos de documentación y procesamiento de datos pueden ser diferentes. Por ejemplo, un error interesante en uno de los populares servicios de publicidad es que los gastos son cero tanto cuando no existen como cuando en realidad son cero. Todos los ingenieros y analistas de datos saben que cero y nulo son valores diferentes y se procesan de manera diferente. En un caso, estos gastos pueden aparecer y deben solicitarse nuevamente, y cero significa que realmente no están y se cuentan como cero.
- La API de un servicio externo proporciona datos incorrectos.
De acuerdo con la matriz, en este proceso, el comercializador es un consultor y fuente de conocimiento: por ejemplo, conocimiento sobre de qué cuentas necesita descargar datos, cuáles son las etiquetas UTM y marcado en campañas publicitarias.
También hay desarrolladores que quieren saber qué cambios ocurrirían en los contenedores si se usara Google Tag Manager, ya que ellos son los responsables de la velocidad de descarga del sitio web.
En este punto, los ingenieros de datos ya están desempeñando el papel responsable porque están configurando canalizaciones de datos. Y los analistas son responsables del resultado del trabajo. Incluso si un empleado realiza estas funciones, en realidad habrá dos roles. Entonces, si la empresa tiene solo un analista, aún recomendamos implementar la matriz por roles. Luego, con el crecimiento de la empresa, tendrá una descripción de trabajo para un nuevo colega y quedará claro cuáles son las responsabilidades para un rol específico.
El actor en esta etapa está interesado en saber qué datos están disponibles y qué problemas hay con su calidad, ya que identifica prioridades y recursos destinados a recopilar datos. Por ejemplo, nuestros clientes aplican ampliamente la función de monitoreo de datos de BI de OWOX.
3. Preparando la vista SQL
La preparación de datos es el siguiente paso. A menudo se denomina preparación de data mart: esta es una estructura plana que contiene los parámetros y las métricas que se presentarán en el tablero. Un analista que tiene herramientas, presupuesto y tiempo limitados a menudo se salta la etapa de preparación de datos comerciales e inmediatamente prepara un data mart. Parecen datos sin procesar recopilados en un almacén de datos. Luego, hay un millón de consultas SQL diferentes junto con scripts de Python y R, y este lío resultará en algo en el tablero.
Si continúa omitiendo la preparación de datos listos para el negocio, dará lugar a errores repetidos que deben corregirse en cada una de las fuentes. Otras cosas que podrían salir mal incluyen:
- Errores regulares en datos primarios
- La lógica empresarial se duplica en todas las consultas SQL
- Se requiere mucho tiempo para encontrar las causas de las discrepancias de datos
- El tiempo para refinar los data marts existentes es comparable al tiempo para reescribir una solicitud
- La lógica del informe es incomprensible para el cliente.
El ejemplo más simple y común de un error es la definición de un usuario nuevo y un usuario devuelto . La mayoría de las empresas no hacen esta distinción de la misma manera que Google Analytics. Por lo tanto, la lógica de las definiciones de tipos de usuarios a menudo se duplica en diferentes informes. Los errores frecuentes también incluyen una lógica de informe incomprensible. Lo primero que preguntará el cliente comercial al mirar el informe es cómo se creó, en qué suposiciones se basó, por qué se usaron los datos, etc. Por lo tanto, la preparación de datos comerciales es una etapa que definitivamente no debe omitir. Construir un data mart a partir de datos sin procesar es como no lavar las verduras y frutas antes de comerlas.
Si asignamos responsabilidades de acuerdo con la matriz, entonces para la preparación de datos, obtendremos esto:
4. Preparación de datos listos para el negocio
Los datos listos para la empresa son un conjunto de datos final limpio que se corresponde con el modelo empresarial. Son datos listos para usar que se pueden enviar a cualquier servicio de visualización de datos (Power BI, Tableau, Google Data Studio, etc.).
Naturalmente, diferentes negocios operan con diferentes modelos. Por ejemplo, las definiciones de "usuarios", "usuarios B2B", "transacciones", "clientes potenciales", etc. significarán diferentes cosas para diferentes empresas. Estos objetos comerciales en realidad responden a la pregunta de cómo piensa una empresa sobre su modelo comercial en términos de datos. Esta es una descripción del negocio en su esencia y no la estructura de eventos en Google Analytics.
El modelo de datos permite que todos los empleados se sincronicen y tengan una comprensión general de cómo se utilizan los datos y qué se entiende al respecto. Por lo tanto, convertir datos sin procesar en datos listos para el negocio es una etapa importante que no se puede omitir.
Qué podría salir mal en esta etapa:
- No está claro qué modelo de datos tiene o utiliza la empresa
- Difícil de preparar y mantener datos simulados
- Difícil de controlar los cambios en la lógica de transformación.
Aquí, debe decidir qué modelo de datos elegir y cómo controlar los cambios en la lógica de la transformación de datos. En consecuencia, estos son los roles de los participantes en el proceso de cambio:
La parte interesada ya no está simplemente informada, sino que se convierte en consultora. Toman decisiones como lo que debe entenderse como un usuario nuevo o retornado. La tarea del analista en esta etapa es involucrar a las partes interesadas tanto como sea posible en la toma de estas decisiones. De lo contrario, lo mejor que puede pasar es que se le pida al analista que rehaga el informe.
Según nuestra experiencia, algunas empresas aún no preparan datos listos para el negocio ni crean informes sobre datos sin procesar. El principal problema con este enfoque es la interminable depuración y reescritura de consultas SQL. A la larga, es más barato y más fácil trabajar con datos preparados en lugar de trabajar con datos sin procesar haciendo las mismas cosas una y otra vez.
OWOX BI recopila automáticamente datos sin procesar de diferentes fuentes y los convierte en un formato compatible con informes. Como resultado, recibe conjuntos de datos listos para usar que se transforman automáticamente en la estructura deseada, teniendo en cuenta los matices importantes para los especialistas en marketing. No tendrá que dedicar tiempo a desarrollar y respaldar transformaciones complejas, profundizar en la estructura de datos y pasar horas buscando las causas de las discrepancias.
Reserve una demostración gratuita para ver cómo OWOX BI lo ayuda a preparar datos comerciales y cómo puede beneficiarse de la administración de datos totalmente automatizada hoy.
5. Preparando el data mart
La siguiente etapa es preparar el data mart. En pocas palabras, esta es una tabla preparada que contiene los datos exactos que necesitan ciertos usuarios de un departamento en particular, lo que hace que sea mucho más fácil de aplicar.
¿Por qué los analistas necesitan un data mart y por qué no debería omitir esta etapa? A los especialistas en marketing y otros empleados sin habilidades analíticas les resulta difícil trabajar con datos sin procesar. La tarea del analista es proporcionar a todos los empleados acceso a los datos en la forma más conveniente para que no tengan que escribir consultas SQL complejas cada vez.
Un data mart ayuda a resolver este problema. De hecho, con un llenado competente, incluirá exactamente la porción de datos necesaria para el trabajo de un determinado departamento. Y los colegas sabrán exactamente cómo usar dicha base de datos y comprenderán el contexto de los parámetros y métricas que se presentan en ella.
Los principales casos en los que algo puede salir mal al preparar el data mart son:
- La lógica de combinación de datos es incomprensible. Por ejemplo, puede haber datos de una aplicación móvil y un sitio web, y debe decidir cómo fusionarlos y mediante qué claves, o decidir cómo fusionar campañas publicitarias con actividades en una aplicación móvil. Hay muchas preguntas. Al tomar estas decisiones al preparar los datos comerciales, las tomamos una vez y su valor es mayor que aquellas decisiones tomadas ad-hoc para un informe específico aquí y ahora. Tales decisiones ad-hoc deben tomarse repetidamente.
- Una consulta SQL no se ejecuta debido a las limitaciones técnicas del almacenamiento de datos. La preparación de datos comerciales es una forma de limpiar los datos y llevarlos a una estructura simulada que abaratará el procesamiento y acelerará las consultas.
- No está claro cómo comprobar la calidad de los datos .
Veamos quién es responsable de qué en esta etapa según la matriz:
Es obvio que la preparación de datos es responsabilidad de los analistas de datos junto con las partes interesadas y los ingenieros de datos, que son consultores en el proceso. Tenga en cuenta que los analistas de BI de OWOX pueden manejar esta tarea por usted. Podemos recopilar y combinar datos, modelarlos para su modelo de negocio y preparar un data mart acompañado de instrucciones detalladas con una descripción de la lógica de construcción, lo que le permite realizar cambios por su parte si es necesario (por ejemplo, agregar nuevos campos).
6. Visualización de datos
La presentación visual de datos en informes y tableros es la etapa final en la que realmente se inició todo. Obviamente, los datos deben presentarse de una manera que sea tanto informativa como fácil de usar. Sin mencionar que las visualizaciones automatizadas y correctamente configuradas reducen significativamente el tiempo para encontrar zonas de riesgo, problemas y posibilidades de crecimiento.
Si ha preparado datos listos para el negocio y un data mart, no tendrá dificultades con las visualizaciones. Sin embargo, también pueden aparecer errores como:
- Datos irrelevantes en el data mart. Si una empresa no está segura de la calidad de los datos, incluso si los datos son de alta calidad, el primer paso es que el cliente comercial le pida al analista que verifique todo dos veces. Esto es ineficiente. Está claro que la empresa quiere estar protegida de los errores y no apresurarse a sacar conclusiones. Por lo tanto, la alta calidad de los datos es una garantía de que alguien los usará más adelante.
- Elegir un método de visualización de datos incorrecto.
- No explicar adecuadamente al cliente la lógica de los cálculos de métricas y parámetros. A menudo, para que un cliente comercial que no utiliza SQL ni métricas interprete correctamente los datos, necesita ver qué significa cada métrica en el contexto del informe, cómo se calcula y por qué. Los analistas no deben olvidar que cualquier persona que use el informe debe tener acceso a una explicación de lo que hay detrás del informe, qué suposiciones se encuentran en el centro del informe, etc.
De acuerdo con la matriz RACI, el analista ya tiene un rol dual: aprobador y responsable . La parte interesada es aquí un consultor , y lo más probable es que haya respondido de antemano a la pregunta de qué decisiones planea tomar y qué hipótesis quiere probar. Estas hipótesis forman la base para el diseño de la visualización con la que trabaja el analista.
Conclusiones clave
La matriz RACI no es una respuesta a todas las preguntas posibles sobre el trabajo con datos, pero definitivamente puede facilitar la implementación y aplicación del flujo de datos en su empresa.
Dado que las personas en diferentes roles están involucradas en diferentes etapas del flujo de datos, es incorrecto suponer que el analista es el único responsable de la calidad de los datos. La calidad de los datos también es responsabilidad de todos los colegas que participan en las decisiones de marcado, entrega, preparación o administración de datos.
Todos los datos son siempre de mala calidad y es imposible deshacerse permanentemente de las discrepancias de datos, hacer que los datos sean consistentes y eliminar el ruido y la duplicación. Esto siempre sucede, especialmente en una realidad de datos tan rápida y dinámicamente cambiante como el marketing. Sin embargo, puede identificar estos problemas de manera proactiva y establecer un objetivo para dar a conocer la calidad de sus datos. Por ejemplo, puede obtener respuestas a preguntas como: ¿ Cuándo se han actualizado los datos? ¿En qué granularidad están disponibles los datos? ¿Qué errores en los datos conocemos? y ¿Con qué métricas podemos trabajar?
Para aquellos que quieran contribuir a mejorar la calidad de los datos de su empresa, recomendamos tres sencillos pasos:
- Cree un esquema de flujo de datos. Por ejemplo, use Miro y dibuje cómo su empresa usa los datos. Se sorprenderá de cuántas opiniones diferentes hay sobre este esquema dentro de una empresa.
- Elabore una matriz de responsabilidad y acuerde quién es responsable de qué, al menos en papel.
- Describir el modelo de datos de negocio.
Con muchos años de experiencia, el equipo de BI de OWOX sabe cómo se deben asignar las responsabilidades y qué necesitan los analistas. Con base en este conocimiento, hemos preparado una plantilla de matriz de asignación de responsabilidades para los equipos de analistas.
Obtener la matriz
Además, el equipo de BI de OWOX puede ayudarlo a configurar y automatizar todos los pasos de datos descritos en este artículo. Si necesita ayuda con alguna de estas tareas o desea auditar su sistema de análisis y calidad de datos, reserve una demostración.
Enlaces útiles
- Datos oscuros: por qué importa lo que no sabes por David J. Hand
- La señal y el ruido: por qué tantas predicciones fallan, pero algunas no por Nate Silver
- Predeciblemente irracional por el Dr. Dan Ariely
- El mono irracional: por qué caemos en la desinformación, la teoría de la conspiración y la propaganda por David Robert Grimes
- Una experiencia de un “Ecosistema de Datos” por Antriksh Goel