ai-strategy
15 min read
View as Markdown

Où vont vos données quand vous utilisez des outils d’IA

Ce qui se passe vraiment avec les informations que vous partagez avec des systèmes d’IA. Protections côté entreprise, risques côté grand public, et à quoi ressemble la conformité en pratique.

Robert Soares

Des ingénieurs de Samsung ont collé du code source confidentiel dans ChatGPT en déboguant. Ils avaient besoin d’aide. Ils ont récolté une crise de conformité à la place. L’entreprise a ensuite interdit l’outil purement et simplement après avoir découvert la fuite. Ce n’était pas de la malveillance. C’était la facilité qui l’emportait sur la prudence, et c’est exactement comme ça que se produisent la plupart des incidents de protection des données impliquant l’IA.

Quand vous tapez quelque chose dans un outil d’IA, ou est-ce que ça va ? La réponse dépend énormément de l’outil que vous utilisez, du fait que vous soyez sur une offre grand public ou entreprise, et de si quelqu’un, dans votre organisation, a réellement lu les conditions d’utilisation — ce que la recherche suggère que presque personne ne fait de manière significative.

Le parcours des données que la plupart des gens n’envisagent jamais

Chaque requête que vous envoyez à un système d’IA devient une donnée traitée quelque part. Pour les outils d’IA hébergés dans le cloud comme ChatGPT, Claude ou Gemini, votre saisie part vers des serveurs distants. Elle est stockée. Elle peut être relue. Elle peut contribuer à l’entraînement de futurs modèles. Les détails varient selon les fournisseurs, mais la logique générale est la même.

Les versions grand public de ces outils fonctionnent généralement avec des conditions qui autorisent un usage plus large de vos saisies. Un commentateur sur Hacker News, l33tman, l’a formulé sans détour : “OpenAI explicitly say that your Q/A on the free ChatGPT are stored and sent to human reviewers.” Un autre commentateur, jackson1442, a ajouté : “Their contractors can (and do!) see your chat data to tune the model.”

Ce ne sont pas des accusations. Ce sont des descriptions de la façon dont les produits fonctionnent. L’offre gratuite se finance grâce à la valeur des données que vous fournissez.

Les versions entreprise fonctionnent autrement. Quand OpenAI a lancé ChatGPT Enterprise, l’utilisateur Hacker News ajhai a souligné ce que ça changeait : “Explicitly calling out that they are not going to train on enterprise’s data and SOC2 compliance is going to put a lot of the enterprises at ease.” La différence est énorme pour les organisations qui manipulent des informations sensibles.

Quels types de données créent du risque

Toutes les données n’ont pas le même poids en matière de conformité. Les informations personnelles sur des personnes identifiables déclenchent les exigences les plus strictes, à la fois au titre du RGPD et du CCPA. Cela inclut les noms, adresses e-mail, numéros de téléphone et historiques d’achat. Mais cela inclut aussi des catégories moins évidentes, comme les adresses IP, les identifiants d’appareil, et des schémas comportementaux qui peuvent identifier quelqu’un une fois combinés à d’autres données.

Le professeur Uri Gal, de l’Université de Sydney, pose le problème des données d’entraînement sans détour : “ChatGPT was fed some 300 billion words systematically scraped from the internet: books, articles, websites and posts, including personal information obtained without consent.” Il ajoute ce qui rend cela particulièrement inquiétant du point de vue des droits : “OpenAI offers no procedures for individuals to check whether the company stores their personal information, or to request it be deleted.”

Quand vous collez des données clients dans un outil d’IA grand public, vous êtes peut-être en train d’alimenter des jeux de données d’entraînement sans aucun moyen de récupérer ou de retirer ces informations plus tard. Les données circulent dans un seul sens. Il n’y a pas de bouton « annuler » qui remonte réellement jusqu’aux poids du modèle.

Exigences du RGPD en clair

Le Règlement général sur la protection des données repose sur un principe simple qui crée des obligations complexes. Il vous faut une base légale avant de traiter des données personnelles. Le consentement est la base la plus courante, mais il doit être libre, spécifique, éclairé et univoque. Planquer une clause de partage de données avec l’IA au paragraphe 47 de vos conditions d’utilisation ne suffit pas.

Pour l’IA en particulier, le RGPD crée plusieurs points de friction. L’article 22 encadre les décisions entièrement automatisées qui affectent significativement les personnes. Si un système d’IA décide qui obtient un prêt, qui voit des offres d’emploi, ou quel prix quelqu’un paie, un examen humain peut être requis. La personne peut exiger une explication de la logique en jeu.

Le droit à l’effacement pose des défis techniques que beaucoup de systèmes d’IA n’ont pas été conçus pour gérer. Quand quelqu’un demande la suppression de ses données, cette demande devrait s’étendre aux jeux de données d’entraînement, mais retirer l’influence d’une personne précise d’un modèle entraîné sur des millions d’exemples n’a rien d’évident. Certains soutiennent que c’est pratiquement impossible avec la technologie actuelle.

Une discussion sur Hacker News en 2018 s’est demandé si le RGPD rendrait l’apprentissage automatique illégal. L’utilisateur ThePhysicist a clarifié l’exigence réelle : “automated decision making is allowed under the GDPR, it just gives the data subject the right to demand a manual assessment.” La loi n’interdit pas l’IA. Elle exige de la responsabilité. Un autre commentateur, bobcostas55, a identifié la tension centrale : “Our most accurate models are unintelligible, and our most intelligible models are inaccurate. There’s a trade-off.”

L’application de la loi a des dents. Les amendes cumulées au titre du RGPD ont dépassé 5,88 milliards d’euros. L’autorité italienne de protection des données a infligé à OpenAI une amende de 15 millions d’euros en 2025 pour les pratiques de collecte de données de ChatGPT, en imposant une campagne d’information publique de six mois sur les protections de la vie privée.

Le CCPA suit une autre logique

La loi californienne sur la vie privée part d’une autre prémisse. Le RGPD exige un consentement (opt-in) avant le traitement. Le CCPA autorise le traitement par défaut, mais donne aux consommateurs le droit de s’opposer à la vente ou au partage de données. Conséquence pratique : en Europe, il faut une permission d’abord ; en Californie, il faut des mécanismes d’opposition qui fonctionnent.

Pour les outils d’IA, la notion de « partage » complique les choses. Si vous utilisez une IA tierce pour analyser des données clients, cela peut constituer un partage au sens du CCPA, ce qui déclenche le droit de s’y opposer. Vos clients peuvent avoir un droit légal d’empêcher que leurs informations partent dans des systèmes d’IA que vous utilisez à des fins commerciales.

À partir de janvier 2026, les nouvelles règles californiennes sur les Automated Decision-Making Technology (ADMT) ajoutent une couche. Les consommateurs obtiennent le droit de refuser l’ADMT pour des décisions importantes touchant la santé, l’emploi, le logement, le crédit, l’éducation ou l’assurance. Les usages marketing échappent le plus souvent à cette catégorie, mais la frontière n’est pas toujours nette.

La California Privacy Protection Agency a prononcé des amendes record dépassant 1,3 million de dollars en 2025. L’application de la loi s’intensifie, elle ne plafonne pas.

Outils d’entreprise vs outils grand public

L’écart entre les produits d’IA entreprise et grand public ne tient pas qu’aux fonctionnalités. Il tient au traitement des données, à la responsabilité juridique, et à ce qui se passe quand ça tourne mal.

ChatGPT grand public, fin 2024, a supprimé la possibilité pour les utilisateurs Free et Plus de désactiver l’historique des conversations. Tout ce que vous tapez est conservé, sauf si vous le supprimez manuellement. Les abonnés Enterprise et Team peuvent se retirer, avec des données purgées après 30 jours. Ce n’est pas une petite différence. C’est un changement fondamental de qui contrôle vos informations.

L’utilisateur Hacker News paxys a résumé la distinction : “There’s a huge difference between trusting a third party service with strict security agreements in place vs one that can legally do whatever they want.” L’utilisateur _jab a remis en question même les garanties entreprise : “‘all conversations are encrypted … at rest’ - why do conversations even need to exist at rest?”

Les offres entreprise incluent généralement la conformité SOC 2, l’authentification unique SAML, des contrôles d’accès basés sur les rôles, et des consoles d’administration pour surveiller l’usage. L’utilisateur ttul a noté l’avantage opérationnel : “If your organization is SOC2 compliant, using other services that are also compliant is a whole lot easier.”

La différence de prix compte moins que la différence de responsabilité. Quand un employé colle des informations confidentielles dans ChatGPT grand public, votre organisation peut n’avoir aucun recours. Quand il fait la même chose dans un environnement entreprise avec des accords de traitement des données en bonne et due forme, vous avez au moins des protections contractuelles et des chaînes de responsabilité plus claires.

Le problème de l’IA de l’ombre

Les politiques officielles ne veulent rien dire si les employés les contournent. Et ils le font. Tout le temps.

Un rapport de 2025 a constaté que 77 % des employés avaient partagé des informations de l’entreprise avec ChatGPT, les données sensibles représentant 34,8 % des saisies. Ce ne sont pas forcément des violations de politique, parce que beaucoup d’organisations n’ont pas encore établi de règles claires sur l’IA. Ce sont juste des gens qui essaient de travailler plus vite.

Le commentateur Hacker News w_for_wumbo a formulé le défi de gestion : “You can’t just tell people not to use it, or to use it responsibly. Because there’s too much incentive for them to use it.” Quand les outils d’IA offrent de vrais gains de productivité, l’interdiction crée une pression de conformité qui finit par casser.

L’utilisateur cuuupid, se présentant comme prestataire fédéral, a décrit un environnement plus strict : “We block ChatGPT, as do most federal contractors. I think it’s a horrible exploit waiting to happen.” Mais même un blocage au pare-feu ne traite qu’un seul vecteur. Les mobiles sur des réseaux personnels contournent entièrement les contrôles d’entreprise.

La réponse réaliste n’est pas l’interdiction. C’est de fournir des alternatives autorisées qui répondent à la fois aux exigences d’usage et de conformité. Si les employés ont accès à des outils d’IA entreprise qui fonctionnent bien, la tentation d’utiliser des alternatives grand public diminue, même si elle ne disparaît jamais complètement.

À quoi ressemble la conformité, en vrai

La conformité n’est pas un exercice de cases à cocher. C’est un processus continu : cartographier les flux de données, évaluer les risques, mettre en place des contrôles, et s’adapter aux changements. Pour l’IA en particulier, cela signifie plusieurs activités très concrètes.

Faites l’inventaire de vos outils d’IA. Chaque système qui traite des données personnelles doit être documenté. Cela inclut les outils évidents comme ChatGPT et Claude, mais aussi les fonctionnalités d’IA intégrées à d’autres logiciels. Le scoring prédictif des prospects dans votre CRM est un système d’IA. L’optimisation de l’heure d’envoi de votre plateforme e-mail est un système d’IA. Le modèle d’attribution de votre outil d’analyse peut être un système d’IA.

Cartographiez vos flux de données. Pour chaque outil, tracez quelles informations entrent, d’où elles viennent, ou elles sont stockées, et qui peut y accéder. Cet exercice révèle souvent des surprises. Des données personnelles se retrouvent fréquemment à des endroits que personne n’avait explicitement autorisés, parce que c’était pratique et que personne n’a posé de questions difficiles.

Définissez vos bases légales. Au titre du RGPD, l’intérêt légitime peut justifier certains traitements par l’IA, mais il vous faut des analyses documentées montrant que vos intérêts ne priment pas sur les droits des personnes. Au titre du CCPA, comprenez quand les mécanismes d’opposition doivent s’activer. Documentez votre raisonnement, pour pouvoir l’expliquer plus tard si les régulateurs demandent.

Mettez à jour vos mentions de confidentialité. Un langage générique sur les cookies et l’analyse d’audience ne couvre pas les traitements par l’IA. Votre politique de confidentialité doit expliquer quels systèmes d’IA vous utilisez, comment les données personnelles y circulent, et comment les personnes peuvent exercer leurs droits. L’utilisateur thomassmith65 sur Hacker News a critiqué le design de l’interface de ChatGPT : “turning ‘privacy’ on is buried in the UI; turning it off again requires just a single click.” Vos propres informations devraient être plus directes.

Formez vos équipes. Toute personne susceptible de coller des données clients dans un outil d’IA doit comprendre ce qu’elle peut faire et ce qu’elle ne peut pas faire. Cette formation doit être pratique, pas théorique. Montrez quels outils sont approuvés. Montrez ce qui se passe quand ils utilisent des alternatives non approuvées. Faites du bon choix le choix le plus simple.

Préparez-vous aux demandes des personnes concernées. Quand quelqu’un exerce son droit d’accès ou de suppression, votre réponse doit couvrir les systèmes d’IA, pas seulement les bases de données traditionnelles. C’est plus difficile opérationnellement, parce que les systèmes d’IA manquent souvent de mécanismes propres pour récupérer ou retirer les données d’une personne précise.

Le problème plus profond que personne n’a résolu

Les cadres de conformité partent du principe que vous savez quelles données vous avez et où elles vont. Les systèmes d’IA compliquent les deux hypothèses.

Les données d’entraînement créent un enregistrement permanent qu’on ne peut pas facilement corriger. Si un modèle a appris des schémas à partir d’informations personnelles censées être supprimées, l’influence persiste même si la donnée d’origine a disparu. Nous manquons de mécanismes techniques d’« désapprentissage » ciblé que les régulateurs accepteraient comme un effacement réel.

Les données inférentielles créent de nouvelles catégories d’informations personnelles à partir de données existantes. Les systèmes d’IA ne se contentent pas de traiter ce que vous leur donnez. Ils en tirent des informations, des prédictions, des profils, qui peuvent eux-mêmes constituer des données personnelles soumises aux droits en matière de vie privée. Le statut juridique de ces inférences générées par l’IA reste contesté.

L’utilisateur ChatGTP sur Hacker News a formulé le risque systémique : “We cannot live in a world where basically all commercial information, all secrets are being submitted to one company.” La concentration des données chez quelques fournisseurs d’IA crée des dépendances qui dépassent les préoccupations de vie privée individuelle et touchent à des questions de pouvoir économique et de dynamique concurrentielle.

L’utilisateur strus a pointé l’enjeu de conformité : “Proven leak of source code may be a reason to revoke certification. Which can cause serious financial harm to a company.” Les conséquences ne sont pas théoriques. Des organisations ont perdu des certifications, des contrats et l’accès à des marchés à cause d’échecs de gestion des données.

Le paysage réglementaire qui se dessine

Les réglementations continuent d’évoluer plus vite que la plupart des programmes de conformité ne peuvent s’adapter. L’AI Act de l’UE crée de nouvelles exigences pour les systèmes d’IA à haut risque à partir d’août 2026, qui se superposent aux obligations du RGPD sans les remplacer. Trois autres lois de protection des données d’États américains sont entrées en vigueur en 2026, s’ajoutant aux huit de 2025, chacune avec des exigences légèrement différentes.

Un Executive Order de décembre 2025 a établi une politique fédérale visant à préempter les réglementations d’État sur l’IA qui entravent la compétitivité nationale. La manière dont les tribunaux interpréteront cela reste floue. Pour l’instant, les organisations prudentes partent du principe qu’elles doivent respecter à la fois les exigences étatiques et fédérales jusqu’à ce qu’une préemption spécifique soit effectivement tranchée.

L’utilisateur amelius sur Hacker News a souligné un obstacle pratique auquel beaucoup d’organisations font face : “Except many companies deal with data of other companies, and these companies do not allow the sharing of data.” Les obligations vis-à-vis de tiers dépassent souvent le minimum réglementaire. Vos contrats peuvent interdire un traitement par l’IA que la loi autorise techniquement.

Où cela nous laisse

Les ingénieurs de Samsung qui ont collé du code source dans ChatGPT n’étaient pas des gens négligents agissant de manière imprudente. C’étaient des professionnels qualifiés utilisant ce qui semblait être un outil raisonnable pour leur travail. L’échec de conformité n’était pas vraiment le leur. Il était organisationnel : un écart entre les outils disponibles et les politiques en place, qui les a laissés prendre des décisions au jugé, sans cadre.

La plupart des incidents de protection des données liés à l’IA suivent ce schéma. Ce ne sont pas des violations au sens traditionnel, pas des hackers qui volent des informations ni des insiders qui vendent des secrets. Ce sont des choix de facilité, pris par des gens qui ne comprenaient pas pleinement où leurs données allaient, ni ce qui leur arriverait une fois là-bas.

L’utilisateur libraryatnight sur Hacker News a exprimé l’angoisse de fond : “We’re just waiting for some company’s data to show up remixed into an answer for someone else.” Que ce scénario précis se matérialise ou non compte moins que l’incertitude qu’il représente. Quand des données entrent dans des systèmes d’IA avec une rétention floue, un usage pour l’entraînement flou, et des capacités de suppression floues, les conséquences à long terme deviennent réellement impossibles à anticiper.

La conformité dans cet environnement exige d’accepter qu’un contrôle parfait n’est pas atteignable. Les données circuleront dans des directions inattendues. Les employés utiliseront des outils non autorisés. Les réglementations changeront plus vite que les politiques ne peuvent s’adapter. Les organisations qui s’en sortent n’atteignent pas la conformité comme une destination. Elles la maintiennent comme une pratique, en s’ajustant en continu aux nouvelles informations sur où vont les données et ce qui se passe quand elles y arrivent.

La question n’est pas de savoir si l’IA et la vie privée peuvent coexister. Elles coexistent déjà, imparfaitement, avec des frictions, de l’incertitude et une négociation permanente entre la facilité et le contrôle. La question est de savoir si votre organisation comprend assez bien sa position dans cette négociation pour faire des choix éclairés sur l’endroit où placer les limites.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you