Preparar los datos

Qué significa tener datos listos para IA a escala. Calidad, gobernanza y las tres preguntas que tu equipo debe responder.

Paso 2 de 5

La barrera más citada cuando los pilotos no escalan es la misma: datos. No porque falten datos, sino porque los que existen están fragmentados, sucios, duplicados o atrapados en silos que nadie conectó.

En una encuesta de Microsoft a 500 tomadores de decisión enterprise, solo el 22% dijo que su organización tiene procesos y dependencias de datos claramente documentados. Eso significa que el 78% está intentando escalar IA sobre una base que no entiende del todo.

Este paso cubre qué significa "datos listos" en la práctica y cómo llegar ahí sin un proyecto de 18 meses.

Tres preguntas antes de cualquier otra cosa

Para cada modelo de IA que quieras llevar a producción, responde estas tres preguntas. Si no puedes responder alguna, ahí está tu problema.

¿Qué datos necesita? No "datos de clientes" en abstracto. Qué campos, de qué fuente, con qué granularidad, actualizados cada cuánto.
¿Dónde viven esos datos hoy? Base de datos de producción, CRM, hojas de cálculo compartidas, emails, notas en Notion. Sé preciso.
¿Qué tan confiables son? ¿Quién los genera? ¿Se validan al entrar? ¿Hay duplicados? ¿Cuántos registros están incompletos?

El caso del modelo de churn

Una empresa de SaaS quería predecir qué clientes iban a cancelar. El modelo del piloto funcionaba bien con datos de un año. Cuando intentaron escalarlo, descubrieron que: los datos de uso venían de dos sistemas distintos que no coincidían, el 30% de las cuentas tenía el campo de "industria" vacío, y los datos de soporte estaban en un sistema que no tenía API. El modelo no era el problema. Los datos sí.

Los tres pilares de datos listos

1. Calificar: los datos son aptos para el problema

No todos los datos sirven para todo. Calificar significa verificar que los datos que tienes son relevantes, representativos y éticamente aptos para el caso de uso.

Preguntas clave:

¿Los datos representan la realidad actual o son históricos desactualizados?
¿Hay sesgos conocidos en la recolección? Por ejemplo, datos solo de un segmento de clientes.
¿El uso de estos datos cumple con las regulaciones aplicables (GDPR, ley de datos local)?

2. Cuantificar: medir calidad en tiempo real

No basta con limpiar los datos una vez. La calidad se degrada con el tiempo. Necesitas métricas continuas.

Métrica	Qué mide	Umbral razonable
Completitud	Porcentaje de campos obligatorios con valor.	> 95%
Frescura	Tiempo desde la última actualización del registro.	Depende del caso. Para ventas: < 7 días. Para finanzas: < 24 horas.
Consistencia	Mismo dato en distintas fuentes coincide.	> 90% de match entre sistemas.
Unicidad	Porcentaje de registros sin duplicados.	> 98%

3. Gobernar: reglas claras sobre quién puede hacer qué

La gobernanza no es burocracia. Es saber quién es dueño de cada dato, quién puede modificarlo, y qué pasa cuando algo cambia.

Elementos mínimos de gobernanza para escalar IA:

Dueño de dato por dominio. Alguien responsable de la calidad de los datos de clientes, de producto, de operaciones. No un comité: una persona.
Catálogo de datos. Un registro centralizado de qué datos existen, dónde viven, y en qué estado están. No tiene que ser sofisticado. Un spreadsheet bien mantenido funciona al principio.
Reglas de acceso. Quién puede leer, quién puede escribir, quién puede exponer datos a modelos de IA. Esto importa especialmente con datos de clientes y datos financieros.

La gobernanza no tiene que ser perfecta para empezar

El error más común es esperar a tener un framework de gobernanza completo antes de escalar. Empieza con lo mínimo: un dueño, un catálogo básico, y reglas de acceso claras. Itera sobre eso. Deloitte estima que pasar de gobernanza básica a gobernanza madura toma 18 a 24 meses, pero no necesitas llegar al final para empezar a escalar.

Conectar los silos

El problema más operativo de los datos en enterprise es que viven en sistemas que no hablan entre sí. El CRM sabe una cosa, el ERP otra, y el data warehouse tiene una versión de hace tres meses.

Tres enfoques, de menor a mayor inversión:

APIs punto a punto. Conectas cada sistema directamente. Funciona con 2 o 3 integraciones. Se vuelve inmanejable con 10.
Capa de integración (ETL/ELT). Herramientas como Fivetran, Airbyte o dbt que extraen datos de múltiples fuentes y los consolidan en un data warehouse. Es el estándar para la mayoría de las empresas.
Data mesh. Cada equipo publica sus datos como producto con contratos de calidad. Requiere madurez organizacional alta. No empieces por aquí.

No automatices datos sucios

Si la fuente tiene problemas de calidad, moverla a un data warehouse con un pipeline automatizado solo multiplica el problema. Limpia en el origen primero. Después automatiza.

Plan de acción mínimo

Responde las tres preguntas (qué datos, dónde, qué tan confiables) para tus dos o tres pilotos prioritarios.
Asigna un dueño de datos para cada dominio involucrado.
Crea un catálogo básico de los datasets que tus pilotos necesitan.
Implementa al menos una métrica de calidad continua (completitud es la más fácil de empezar).
Establece la conexión entre las fuentes de datos y el entorno donde corren tus modelos.

Señales de que funciona

Los equipos que construyen modelos pueden describir exactamente qué datos usan, de dónde vienen, y quién es el dueño.
Existe un catálogo de datos consultable, aunque sea básico.
Las métricas de calidad se revisan al menos mensualmente.
Los problemas de datos se detectan antes de que un modelo falle, no después.

Preparar los datos

En esta página