--- title: Adónde van tus datos cuando usas herramientas de IA description: Qué ocurre en realidad con la información que compartes con sistemas de IA. Protecciones empresariales, riesgos para consumidores y cómo se ve el cumplimiento normativo en la práctica. date: February 5, 2026 author: Robert Soares category: ai-strategy --- Ingenieros de Samsung pegaron código fuente confidencial en ChatGPT mientras depuraban. Necesitaban ayuda. En su lugar consiguieron una crisis de cumplimiento normativo. Más tarde, la empresa prohibió la herramienta por completo tras descubrir la filtración. No fue malicia. Fue la comodidad ganándole a la cautela, que es exactamente como ocurren la mayoría de los incidentes de privacidad de datos con IA. Cuando escribes algo en una herramienta de IA, ¿adónde va? La respuesta depende mucho de qué herramienta uses, de si estás en un plan de consumo o empresarial, y de si alguien en tu organización se ha leído de verdad los términos de servicio, algo que la investigación sugiere que casi nadie hace de manera significativa. ## El recorrido de los datos que casi nadie considera Cada petición que envías a un sistema de IA se convierte en datos que se procesan en algún lugar. En herramientas de IA en la nube como ChatGPT, Claude o Gemini, tu entrada viaja a servidores remotos. Se almacena. Puede revisarse. Podría contribuir al entrenamiento de modelos futuros. Los detalles cambian según el proveedor, pero el patrón general se mantiene. Las versiones para consumidores de estas herramientas suelen operar bajo términos que permiten un uso más amplio de tus entradas. Un comentarista de Hacker News con el alias **l33tman** lo dijo sin rodeos: "OpenAI explicitly say that your Q/A on the free ChatGPT are stored and sent to human reviewers." Otro comentarista, **jackson1442**, añadió contexto: "Their contractors can (and do!) see your chat data to tune the model." No son acusaciones. Son descripciones de cómo funcionan los productos. El nivel gratuito se subvenciona a sí mismo gracias al valor de los datos que aportas. Las versiones empresariales operan de otra manera. Cuando OpenAI lanzó ChatGPT Enterprise, el usuario de Hacker News **ajhai** señaló su importancia: "Explicitly calling out that they are not going to train on enterprise's data and SOC2 compliance is going to put a lot of the enterprises at ease." La diferencia importa enormemente para las organizaciones que manejan información sensible. ## Qué tipos de datos generan riesgo No todos los datos tienen el mismo peso normativo. La información personal sobre personas identificables activa los requisitos más estrictos tanto bajo el GDPR como bajo la CCPA. Esto incluye nombres, direcciones de correo electrónico, números de teléfono e historiales de compra. Pero también incluye categorías menos obvias como direcciones IP, identificadores de dispositivo y patrones de comportamiento que podrían identificar a alguien cuando se combinan con otros datos. El profesor Uri Gal, de la Universidad de Sídney, [plantea el problema de los datos de entrenamiento sin rodeos](https://theconversation.com/chatgpt-is-a-data-privacy-nightmare-if-youve-ever-posted-online-you-ought-to-be-concerned-199283): "ChatGPT was fed some 300 billion words systematically scraped from the internet: books, articles, websites and posts, including personal information obtained without consent." Añade lo que hace que esto sea especialmente preocupante desde la perspectiva de los derechos: "OpenAI offers no procedures for individuals to check whether the company stores their personal information, or to request it be deleted." Cuando pegas datos de clientes en una herramienta de IA de consumo, puede que estés añadiéndolos a conjuntos de datos de entrenamiento sin ninguna forma de recuperar o eliminar esa información después. Los datos fluyen en una sola dirección. No hay un botón de deshacer que de verdad llegue hasta los pesos del modelo. ## Requisitos del GDPR en términos sencillos El Reglamento General de Protección de Datos opera sobre un principio simple que crea obligaciones complejas. Necesitas una base legal antes de procesar datos personales. El consentimiento es la base más común, pero tiene que ser libre, específico, informado e inequívoco. Esconder una cláusula de cesión de datos a IA en el párrafo 47 de tus términos de servicio no cuenta. Para la IA en concreto, el GDPR crea varios puntos de fricción. El artículo 22 restringe la toma de decisiones totalmente automatizada que afecta de forma significativa a las personas. Si un sistema de IA decide quién recibe un préstamo, o quién ve ofertas de empleo, o qué precio paga alguien, puede exigirse revisión humana. La persona puede exigir una explicación de la lógica implicada. El derecho de supresión plantea retos técnicos que muchos sistemas de IA no se diseñaron para manejar. Cuando alguien solicita que se eliminen sus datos, esa solicitud debería extenderse a los conjuntos de datos de entrenamiento, pero quitar la influencia de una persona concreta de un modelo entrenado con millones de ejemplos no es sencillo. Algunos sostienen que, con la tecnología actual, es prácticamente imposible. Un hilo de Hacker News de 2018 debatía si el GDPR volvería ilegal el aprendizaje automático. El usuario **ThePhysicist** aclaró el requisito real: "automated decision making is allowed under the GDPR, it just gives the data subject the right to demand a manual assessment." La ley no prohíbe la IA. Exige rendición de cuentas. Otro comentarista, **bobcostas55**, identificó la tensión central: "Our most accurate models are unintelligible, and our most intelligible models are inaccurate. There's a trade-off." La aplicación tiene dientes. Las multas acumuladas del GDPR han superado los 5.88 mil millones de euros. La autoridad de protección de datos italiana multó a OpenAI con 15 millones de euros en 2025 por las prácticas de recopilación de datos de ChatGPT, exigiendo una campaña pública de concienciación de seis meses sobre protecciones de privacidad. ## La CCPA parte de otra premisa La ley de privacidad de California parte de un punto de partida distinto. El GDPR exige consentimiento explícito antes del tratamiento. La CCPA permite el tratamiento por defecto, pero da a los consumidores el derecho a excluirse de la venta o cesión de datos. El efecto práctico: las empresas europeas necesitan permiso primero, mientras que las empresas de California necesitan mecanismos de exclusión que funcionen. Con herramientas de IA, el concepto de "compartición" crea complicaciones. Si usas una IA de terceros para analizar datos de clientes, eso puede constituir compartición bajo la CCPA, lo que activa el requisito de exclusión. Tus clientes podrían tener un derecho legal a impedir que su información fluya hacia los sistemas de IA que usas para fines empresariales. A partir de enero de 2026, las nuevas normas de California sobre Automated Decision-Making Technology añaden otra capa. Los consumidores ganan el derecho a excluirse de la ADMT para decisiones importantes que afecten a salud, empleo, vivienda, crédito, educación o seguros. Las aplicaciones de marketing suelen quedar fuera de esta categoría, pero la frontera no siempre está clara. La California Privacy Protection Agency impuso multas récord que superaron los 1.3 millones de dólares en 2025. La aplicación está escalando, no estabilizándose. ## Herramientas empresariales frente a herramientas de consumo La brecha entre los productos de IA empresariales y los de consumo no es solo de funciones. Es de manejo de datos, responsabilidad y qué pasa cuando las cosas salen mal. ChatGPT de consumo, a finales de 2024, eliminó la posibilidad de que los usuarios gratuitos y Plus desactivaran el historial de chat. Todo lo que escribes se retiene a menos que lo borres manualmente. Los suscriptores Enterprise y Team pueden excluirse, y los datos se purgan al cabo de 30 días. Esto no es un detalle menor. Es un cambio fundamental en quién controla tu información. El usuario de Hacker News **paxys** captó la diferencia: "There's a huge difference between trusting a third party service with strict security agreements in place vs one that can legally do whatever they want." El usuario **_jab** cuestionó incluso las salvaguardas empresariales: "'all conversations are encrypted ... at rest' - why do conversations even need to exist at rest?" Los planes empresariales suelen incluir cumplimiento SOC 2, inicio de sesión único con SAML, controles de acceso basados en roles y consolas de administración para supervisar el uso. El usuario **ttul** señaló el beneficio operativo: "If your organization is SOC2 compliant, using other services that are also compliant is a whole lot easier." La diferencia de precio importa menos que la diferencia de responsabilidad. Cuando un empleado pega información confidencial en ChatGPT de consumo, tu organización puede no tener ningún recurso. Cuando hace lo mismo en un entorno empresarial con acuerdos de tratamiento de datos adecuados, al menos tienes protecciones contractuales y cadenas de responsabilidad más claras. ## El problema de la IA en la sombra Las políticas formales no significan nada si la gente las esquiva. Y lo hacen. Constantemente. Un informe de 2025 encontró que el 77% de los empleados había compartido información de la empresa con ChatGPT, y que los datos sensibles representaban el 34,8% de las entradas. Esto no siempre son violaciones de políticas, porque muchas organizaciones aún no han establecido políticas claras de IA. Es, simplemente, gente intentando hacer el trabajo más rápido. El comentarista de Hacker News **w_for_wumbo** expresó el reto de gestión: "You can't just tell people not to use it, or to use it responsibly. Because there's too much incentive for them to use it." Cuando las herramientas de IA ofrecen mejoras reales de productividad, prohibirlas crea una presión de cumplimiento que, con el tiempo, se rompe. El usuario **cuuupid**, identificándose como contratista federal, describió un entorno más estricto: "We block ChatGPT, as do most federal contractors. I think it's a horrible exploit waiting to happen." Pero incluso bloquear a nivel de cortafuegos solo cubre un vector. Los móviles en redes personales evitan los controles corporativos por completo. La respuesta realista no es prohibir. Es ofrecer alternativas autorizadas que cumplan a la vez requisitos de usabilidad y de cumplimiento normativo. Si la gente tiene acceso a herramientas de IA empresariales que funcionan bien, la tentación de usar alternativas de consumo disminuye, aunque nunca desaparece del todo. ## Cómo se ve el cumplimiento de verdad El cumplimiento no es una casilla que se marca. Es un proceso continuo de mapear flujos de datos, evaluar riesgos, implementar controles y responder a los cambios. Para la IA en concreto, esto significa varias actividades muy concretas. **Haz inventario de tus herramientas de IA.** Todo sistema que procese datos personales necesita documentación. Esto incluye herramientas obvias como ChatGPT y Claude, pero también funciones de IA integradas en otros programas. La calificación predictiva de clientes potenciales de tu CRM es un sistema de IA. La optimización de hora de envío de tu plataforma de correo electrónico es un sistema de IA. El modelado de atribución de tu herramienta de analítica podría ser un sistema de IA. **Mapea tus flujos de datos.** Para cada herramienta, rastrea qué información entra, de dónde viene, dónde se almacena y quién puede acceder. Este ejercicio a menudo revela sorpresas. Los datos personales suelen fluir a lugares que nadie autorizó explícitamente porque era cómodo y nadie hizo preguntas difíciles. **Establece bases legales.** Bajo el GDPR, los intereses legítimos pueden justificar cierto tratamiento con IA, pero necesitas evaluaciones documentadas que demuestren que tus intereses no prevalecen sobre los derechos individuales. Bajo la CCPA, entiende cuándo deben activarse los mecanismos de exclusión. Documenta tu razonamiento para poder explicarlo después si los reguladores preguntan. **Actualiza tus avisos de privacidad.** Un lenguaje genérico sobre cookies y analítica no cubre el tratamiento con IA. Tu política de privacidad debería explicar qué sistemas de IA usas, cómo fluyen los datos personales a través de ellos y cómo las personas pueden ejercer sus derechos. El usuario **thomassmith65** en Hacker News criticó el diseño de la interfaz de ChatGPT: "turning 'privacy' on is buried in the UI; turning it off again requires just a single click." Tus propios avisos deberían ser más directos. **Capacita a tu equipo.** Toda persona que pueda pegar datos de clientes en una herramienta de IA necesita entender qué puede y qué no puede hacer. Esta formación debe ser práctica, no teórica. Muéstrales qué herramientas están aprobadas. Muéstrales qué pasa cuando usan alternativas no aprobadas. Haz que la opción correcta sea la más fácil. **Prepárate para solicitudes de las personas.** Cuando alguien ejerce su derecho de acceso o supresión, tu respuesta tiene que cubrir sistemas de IA, no solo bases de datos tradicionales. Operativamente es más difícil porque los sistemas de IA a menudo no tienen mecanismos limpios para recuperar o eliminar datos de personas concretas. ## El problema de fondo que nadie resolvió Los marcos de cumplimiento asumen que sabes qué datos tienes y adónde van. Los sistemas de IA complican ambas suposiciones. Los datos de entrenamiento crean un registro permanente que no se puede modificar con facilidad. Si un modelo aprendió patrones a partir de información personal que se suponía que debía eliminarse, la influencia persiste incluso si los datos originales ya no existen. No tenemos mecanismos técnicos de “desaprendizaje” dirigido que los reguladores aceptarían como una supresión real. Los datos inferidos crean nuevas categorías de información personal a partir de datos existentes. Los sistemas de IA no solo procesan lo que les das. Derivan conocimientos, predicciones y perfiles que pueden constituir, por sí mismos, datos personales sujetos a derechos de privacidad. El estatus legal de estas inferencias generadas por IA sigue en disputa. El usuario **ChatGTP** en Hacker News articuló el riesgo sistémico: "We cannot live in a world where basically all commercial information, all secrets are being submitted to one company." La concentración de datos en unos pocos proveedores de IA crea dependencias que van más allá de las preocupaciones de privacidad individual y entran en preguntas sobre poder económico y dinámicas competitivas. El usuario **strus** señaló lo que está en juego en términos de cumplimiento: "Proven leak of source code may be a reason to revoke certification. Which can cause serious financial harm to a company." Las consecuencias no son hipotéticas. Hay organizaciones que han perdido certificaciones, contratos y acceso a mercados por fallos en el manejo de datos. ## El panorama regulatorio emergente Las regulaciones siguen evolucionando más rápido de lo que la mayoría de los programas de cumplimiento pueden adaptarse. El Reglamento de IA de la UE crea nuevos requisitos para sistemas de IA de alto riesgo a partir de agosto de 2026, superponiéndose con, pero no sustituyendo, las obligaciones del GDPR. Tres leyes más de privacidad estatales en EE. UU. entraron en vigor en 2026, sumándose a las ocho de 2025, cada una con requisitos ligeramente distintos. Una orden ejecutiva de diciembre de 2025 estableció una política federal para prevalecer sobre regulaciones estatales de IA que obstaculicen la competitividad nacional. Cómo interpretarán los tribunales esto no está claro. Por ahora, las organizaciones prudentes asumen que deben cumplir tanto con requisitos estatales como federales hasta que esa prevalencia se materialice de verdad de forma específica. El usuario **amelius** en Hacker News destacó una barrera práctica a la que se enfrentan muchas organizaciones: "Except many companies deal with data of other companies, and these companies do not allow the sharing of data." Las obligaciones con terceros a menudo superan los mínimos regulatorios. Tus contratos pueden prohibir tratamiento con IA que, técnicamente, la ley permite. ## Dónde nos deja esto Los ingenieros de Samsung que pegaron código fuente en ChatGPT no eran personas descuidadas actuando de forma temeraria. Eran profesionales cualificados usando una herramienta que les pareció razonable para su trabajo. El fallo de cumplimiento no era realmente suyo. Era organizacional: una brecha entre las herramientas disponibles y las políticas establecidas que les dejó tomando decisiones sin guía. La mayoría de los incidentes de privacidad de datos con IA siguen este patrón. No son brechas en el sentido tradicional, no son hackers robando información ni personas internas vendiendo secretos. Son decisiones de comodidad tomadas por gente que no entendía del todo adónde iban sus datos ni qué iba a pasar con ellos cuando llegaran allí. El usuario **libraryatnight** en Hacker News expresó la ansiedad subyacente: "We're just waiting for some company's data to show up remixed into an answer for someone else." Que ese escenario en concreto se materialice importa menos que la incertidumbre que representa. Cuando los datos fluyen hacia sistemas de IA con retención poco clara, uso para entrenamiento poco claro y capacidades de eliminación poco claras, las consecuencias a largo plazo se vuelven genuinamente incognoscibles. El cumplimiento en este entorno exige aceptar que el control perfecto no es alcanzable. Los datos fluirán en direcciones inesperadas. La gente usará herramientas no autorizadas. Las regulaciones cambiarán más rápido de lo que las políticas pueden adaptarse. Las organizaciones que navegan esto con éxito no alcanzan el cumplimiento como destino. Lo sostienen como práctica, ajustándose de forma continua a nueva información sobre adónde van los datos y qué pasa cuando llegan allí. La pregunta no es si la IA y la privacidad pueden coexistir. Ya coexisten, de forma imperfecta, con fricción e incertidumbre y negociación constante entre comodidad y control. La pregunta es si tu organización entiende su posición en esa negociación lo suficiente como para tomar decisiones informadas sobre dónde deberían estar los límites.