Datos y límites

Qué información puede entrar a un LLM y cuál no. Criterios prácticos de clasificación para que tu equipo tome buenas decisiones sin consultar al área legal.

Paso 3 de 5

La mayoría de las filtraciones de datos por IA no ocurren por un ataque externo. Ocurren porque alguien pegó algo que no debía en un chat. Un ingeniero que copia código fuente para que la IA lo revise. Un analista que sube un Excel con nombres y cédulas de clientes para que le haga una tabla dinámica. Un gerente que pega un correo confidencial para que la IA le escriba la respuesta.

En todos los casos, la persona quería hacer bien su trabajo. El problema es que nadie le dijo dónde estaba el límite.

El problema concreto

Cuando pegas texto en ChatGPT, Claude o cualquier LLM público, ese texto viaja a los servidores del proveedor. Dependiendo del plan y la configuración:

En planes gratuitos o personales, el proveedor puede usar tus datos para entrenar sus modelos. Lo que pegaste hoy puede influir en las respuestas que otro usuario reciba mañana.
En planes enterprise con contrato, generalmente los datos no se usan para entrenamiento. Pero siguen viajando al servidor del proveedor, se procesan allí y pueden quedar en logs temporales.
En despliegues on-premise o con API privada, los datos no salen de tu infraestructura. Pero la configuración es más compleja y costosa.

El 46% de las organizaciones ya ha tenido filtraciones de datos internos a través de herramientas de IA generativa. Y el 83% opera sin controles básicos para prevenirlo.

Clasificación práctica de datos

Tu equipo necesita un sistema simple para decidir, en el momento, si puede o no pegar algo en una herramienta de IA. Tres niveles son suficientes.

Nivel rojo: nunca entra

Datos que bajo ninguna circunstancia deben ingresarse en una herramienta de IA externa, sin importar el plan o contrato.

Tipo de dato	Ejemplos concretos
Datos personales identificables (PII)	Nombres completos + cédula/DNI, direcciones, números de teléfono de clientes, historiales médicos, datos biométricos.
Datos financieros no públicos	Estados financieros no publicados, proyecciones, datos de cuentas bancarias de clientes, información de tarjetas de crédito.
Credenciales y accesos	Contraseñas, API keys, tokens de acceso, certificados, strings de conexión a bases de datos.
Propiedad intelectual crítica	Código fuente propietario core, fórmulas, algoritmos diferenciadores, patentes en proceso.
Información legal privilegiada	Comunicaciones con abogados, documentos de litigios en curso, acuerdos de confidencialidad.

Nivel amarillo: con precaución

Datos que pueden entrar solo en herramientas aprobadas con contrato enterprise, y solo si el contexto lo justifica.

Tipo de dato	Condición para usarlo
Datos internos operativos	Procesos, manuales, documentación técnica no sensible. Solo en herramientas con contrato que garantice no entrenamiento.
Código fuente no core	Scripts de automatización, configuraciones genéricas, código de integración. Nunca el diferenciador del producto.
Comunicaciones internas no confidenciales	Resúmenes de reuniones sin decisiones estratégicas ni nombres de clientes.
Datos agregados y anonimizados	Métricas de rendimiento sin identificadores individuales, tendencias de mercado internas.

Nivel verde: uso libre

Datos que pueden usarse en cualquier herramienta de IA aprobada sin restricciones adicionales.

Información pública: contenido ya publicado en tu sitio web, comunicados de prensa, documentación de producto pública.
Conocimiento genérico: preguntas de concepto, solicitudes de formato, redacción de textos sin datos internos.
Contenido de marketing aprobado para publicación.
Ejemplos ficticios o datos de prueba.

Anonimizar no es borrar nombres

"Le quité el nombre del cliente" no es anonimización suficiente. Si el contexto permite identificar a la persona (cargo, empresa, fecha, monto), el dato sigue siendo identificable. La regla práctica: si alguien que conoce a tu cliente podría reconocerlo en el texto, no está anonimizado.

Reglas prácticas para el día a día

Estas reglas son las que tu equipo necesita poder aplicar sin pensar demasiado:

Antes de pegar, pregunta: "si esto apareciera en una noticia, tendríamos un problema?" Si la respuesta es sí o tal vez, no lo pegues.
Usa la versión enterprise. Si tu empresa tiene ChatGPT Enterprise o Claude for Work, usa esa cuenta. Nunca tu cuenta personal para tareas laborales.
No subas archivos completos cuando solo necesitas una parte. Si necesitas que la IA analice una sección de un reporte, copia solo esa sección. Sin headers, sin nombres, sin metadata.
Las capturas de pantalla también cuentan. Una imagen de un dashboard con datos de clientes es tan sensible como el texto.
Verifica la configuración de la herramienta. Algunas herramientas tienen opciones como "mejorar el modelo con tus datos" activadas por defecto. Desactívalas.

Crea un canal de dudas

Abre un canal de Slack o Teams donde cualquier persona pueda preguntar "puedo pegar esto en la IA?" sin sentirse tonta. Es más barato responder 50 preguntas al mes que manejar una filtración.

Controles técnicos de apoyo

La clasificación y las reglas son el primer nivel. Pero las personas se equivocan, se apuran, se olvidan. Los controles técnicos cubren ese margen:

DLP para IA. Herramientas como Cyberhaven o CrowdStrike Falcon pueden detectar cuando un empleado está a punto de pegar datos sensibles en una herramienta de IA y bloquearlo o alertarlo.
Proxies de IA. Intermediarios que inspeccionan los prompts antes de que lleguen al proveedor y redactan automáticamente datos sensibles (PII, credenciales, etc.).
Configuración de retención. En herramientas enterprise, configura la retención mínima posible. Que los datos no se almacenen más tiempo del necesario.
Auditoría de uso. Registros de quién usó qué herramienta, cuándo y cuánto. No para vigilar, sino para detectar patrones anómalos.

Señales de que este paso funciona

El equipo puede clasificar un dato en rojo, amarillo o verde sin consultar el documento completo.
Las herramientas enterprise están configuradas con retención mínima y entrenamiento desactivado.
Existe al menos un control técnico activo (DLP, proxy o auditoría).
Los incidentes de datos en herramientas de IA se detectan en días, no en meses.

Datos y límites

En esta página