--- title: Tokens et fenêtres de contexte : pourquoi l'IA oublie description: Ce que sont vraiment les tokens, pourquoi les fenêtres de contexte limitent la mémoire de l'IA, et pourquoi votre assistant IA perd le fil des conversations. Un regard sur les mécanismes derrière l'oubli de l'IA. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Vers le quinzième message, l'assistant IA cesse de reconnaître votre projet. Vous lui rappelez. Il s'excuse. Deux messages plus tard, il oublie encore. Ce n'est pas un bug. C'est l'architecture. ## Les mots ne sont pas ce que l'IA lit Ouvrez un livre. Vous voyez des mots. Un modèle d'IA voit autre chose : des morceaux appelés tokens. Un token peut être un mot entier, mais souvent ce n'est pas le cas. Le mot "hamburger" se découpe en trois morceaux. "Ham." "Bur." "Ger." Chaque morceau est un token distinct que le modèle traite indépendamment, même si votre cerveau voit un seul mot. Ce découpage passe par un processus appelé tokenisation, et les modèles n'utilisent pas tous la même approche. L'algorithme précis compte davantage que la plupart des gens ne l'imaginent. Comme l'a observé Simon Willison dans son analyse des tokenizers GPT : "Many of the quirks and limitations of LLMs can be traced back to details of the tokenizer used." Les mots courants restent intacts. Les mots rares se font découper. Le jargon technique, les noms, les textes non anglais ? Coupés en fragments. C'est là que ça devient intéressant. Le mot "Tokenization" lui-même se divise en deux tokens : le token 30,642 et le token 1,634. L'IA ne le voit pas comme une seule unité. Elle voit deux morceaux qui ont appris à aller ensemble pendant l'entraînement, comme vous avez appris que "ham," "bur," et "ger" forment un sandwich. La langue compte aussi. L'anglais se tokenise efficacement parce que ces systèmes ont été entraînés principalement sur des textes anglais. L'espagnol, le chinois, l'arabe ? Ils produisent tous plus de tokens par mot. L'expression "Cómo estás" utilise 5 tokens pour seulement 10 caractères, ce qui veut dire que les locuteurs non anglophones atteignent les limites plus vite tout en disant moins. ## L'étrange mémoire du tokenizer Les tokenizers retiennent des choses de leurs données d'entraînement de façon étrange. Willison a relevé un biais intéressant : "The English bias is obvious here. ' man' gets a lower token ID of 582, because it's an English word." Les IDs de token plus bas correspondent en général à des tokens plus fréquents. Le modèle a, en quelque sorte, ses favoris. Puis il y a les glitch tokens. Pendant l'entraînement du tokenizer, certains motifs sont apparus si souvent qu'ils sont devenus des tokens à part entière, alors qu'ils n'auraient pas dû. Un exemple est " davidjl" (avec l'espace au début), devenu son propre token parce que ce nom d'utilisateur apparaissait des centaines de milliers de fois dans les données d'entraînement de GPT-2. L'ancien tokenizer codait "SolidGoldMagikarp" comme un seul token à cause d'accidents statistiques similaires. Le nouveau tokenizer le découpe en cinq : "Solid," "Gold," "Mag," "ik," "arp." Ce ne sont pas de simples curiosités. Ça révèle que la tokenisation n'est pas une couche de traduction neutre. Elle transporte les biais et les accidents de ses données d'entraînement dans chaque conversation que vous avez avec une IA. ## Fenêtres de contexte : les murs invisibles Chaque modèle d'IA a une fenêtre de contexte. C'est le nombre maximal de tokens qu'il peut contenir en une fois. Vos messages, les réponses de l'IA, les documents que vous téléversez, le prompt système qui tourne en arrière-plan : tout doit tenir dans cette fenêtre. Les chiffres ont grimpé de façon spectaculaire. GPT-4 Turbo propose 128 000 tokens. Claude vous en donne 200 000. Gemini 2.5 Pro monte à 1 million. Llama 4 Scout de Meta revendique 10 millions. Un million de tokens, ça sonne comme l'infini. C'est environ 750 000 mots. Plusieurs romans. Une base de code entière. Alors pourquoi votre IA oublie-t-elle ce que vous lui avez dit il y a vingt minutes ? ## Fenêtres plus grandes, mêmes problèmes Sur Hacker News, un utilisateur nommé jokethrowaway a pointé le vrai problème : "Context window size is not the limiting factor. How well will it be able to use that information is the problem." Avoir de la place n'est pas la même chose que bien l'utiliser. Des recherches de Stanford ont montré ce qu'elles ont appelé l'effet "lost in the middle". Les modèles d'IA montrent une courbe d'attention en U. Ils traitent bien les informations au début du contexte. Ils traitent bien les informations à la fin. Le milieu ? Il s'efface. Dans des expériences, les performances de GPT-3.5-Turbo ont chuté de plus de 20 % quand des informations clés étaient placées au milieu de l'entrée plutôt qu'au début ou à la fin. Parfois, le modèle faisait pire que s'il n'avait eu aucun contexte. Avoir l'information et l'utiliser sont deux choses différentes. Ce n'est pas un bug logiciel qu'on va corriger mardi prochain. Ça vient du mécanisme d'attention qui fait fonctionner les transformers au départ, le processus mathématique qui permet au modèle de comprendre quelles parties de l'entrée sont liées à quelles autres parties. Ce mécanisme favorise naturellement certaines positions. L'architecture a ses préférences sur ce qui compte. ## L'écart entre les promesses et la réalité Une recherche de Chroma a étudié ce qui se passe quand les modèles approchent leurs limites annoncées. Le constat : "most models break much earlier than advertised. A model claiming 200k tokens typically becomes unreliable around 130k, with sudden performance drops rather than gradual degradation." Les modèles ne s'estompent pas proprement. Ils fonctionnent, puis ils ne fonctionnent plus. La falaise est abrupte. Sur les forums développeurs d'OpenAI, les utilisateurs ont documenté cette expérience à répétition. Un utilisateur nommé rajeev.a.j.madari a décrit cette frustration : "ChatGPT struggles to remember the entirety of our chat. Most times, it appears as though the system only acknowledges my most recent input, causing confusion." Un autre utilisateur, Joel_Barger, a noté des conséquences pratiques : "In a coding situation context is important. It'll lose or change the name of namespaces or class methods arbitrarily." Ce ne sont pas des cas limites. C'est l'expérience normale des longues conversations avec des modèles d'IA. ## Le calcul explose, l'argent brûle Agrandir les fenêtres de contexte coûte cher. Un utilisateur nommé gdiamos a expliqué l'économie sur Hacker News : "the compute still scales at best linearly with the input size. So a context size of 100k requires 100x more compute than a prompt size of 1k." En réalité, c'est même pire que linéaire. Le mécanisme d'attention évolue de façon quadratique avec la longueur de la séquence. Vous doublez le contexte, vous quadruplez le calcul. C'est pour ça que des fenêtres de contexte plus longues coûtent plus cher par token. C'est pour ça que les offres gratuites ont des limites plus courtes. C'est pour ça que votre forfait entreprise finit quand même par vous couper. Différentes techniques atténuent ça. Les schémas d'attention creuse sautent des connexions entre tokens éloignés. Les approches à fenêtre glissante traitent des blocs séparément. Des innovations d'architecture compressent l'ancien contexte en résumés. Mais chaque solution échange quelque chose : la vitesse, la précision, ou la capacité à relier des idées très éloignées. ## Pourquoi les fonctions de « mémoire » ne règlent pas ça Les assistants IA modernes mettent en avant des fonctions de mémoire. ChatGPT se souviendra que vous préférez des réponses concises. Claude peut stocker des faits sur vos projets d'une conversation à l'autre. Ce n'est pas la même chose que le contexte. Ces systèmes de mémoire stockent des faits précis dans une base de données séparée. Quand vous démarrez une nouvelle conversation, l'IA récupère des souvenirs pertinents et les insère dans la fenêtre de contexte. C'est de la récupération, pas un vrai souvenir. La différence compte parce que la récupération est sélective. Le système devine quels faits stockés sont utiles pour cette conversation. Parfois il se trompe. Et même quand il devine juste, ces souvenirs récupérés se battent quand même pour de la place dans la même fenêtre de contexte limitée que tout le reste. Comme l'a noté segmondy sur Hacker News : "infinite context window is not AGI enough, memory is not substitute for planning and reasoning." Stocker des faits n'est pas la même chose que les comprendre. Se rappeler que vous avez mentionné une échéance mardi dernier n'est pas la même chose que suivre la façon dont cette échéance interagit avec les trois autres contraintes que vous avez mentionnées ce mardi. ## La position est une stratégie Si vous comprenez comment fonctionnent les fenêtres de contexte, vous pouvez travailler avec elles au lieu de travailler contre elles. Mettez les informations critiques en premier. Le modèle prête attention au début. N'échauffez pas avec une longue mise en contexte pour garder les contraintes importantes au sixième paragraphe. Commencez par l'essentiel. Répétez-vous de façon stratégique. Si quelque chose était crucial au message trois et que vous en êtes maintenant au message trente, dites-le à nouveau. Le modèle ne sera pas vexé. De toute façon, il ne s'en souvient probablement pas. Gardez les conversations ciblées. Une fenêtre de contexte partagée entre quinze sujets différents vaut moins que trois conversations séparées sur cinq sujets chacune. La précision bat l'étalement. Faites des résumés régulièrement. Quand une conversation devient longue, demandez à l'IA de résumer les points clés, puis démarrez une nouvelle conversation avec ce résumé comme premier message. Vous perdez en nuance mais gagnez en clarté. ## Un futur étrange Les fenêtres de contexte continuent de grandir. La communauté de recherche continue de trouver des moyens de repousser les limites. En quelques années, on est passés de 4 000 tokens à 10 millions. Cette trajectoire va probablement continuer. Mais plus grand ne veut pas dire meilleur, et les défis fondamentaux restent architecturaux. fsndz l'a observé sur Hacker News : "Context windows are becoming larger and larger, and I anticipate more research focusing on this trend." Si cette recherche existe, c'est parce que le problème existe. Il y a quelque chose de presque poétique dans le fait de construire des systèmes qui oublient. La mémoire humaine est imparfaite aussi. On perd le milieu des cours. On retient les débuts et les fins. On reconstruit au lieu de rappeler fidèlement. L'IA n'imite pas la mémoire humaine par conception. Elle arrive à des limites similaires par des mécanismes complètement différents. Architectures différentes, même résultat : des choses se perdent. Vous parlez de votre projet à l'IA. Elle répond utilement. Vous continuez la conversation. Vers le quinzième message, vous remarquez que cette réponse utile a dérivé. L'IA répond toujours. Elle reste confiante. Elle a simplement oublié ce dont vous parliez réellement. Ce n'est pas de la malveillance. Ce sont les maths. Et tant que les maths ne changent pas, chaque conversation avec une IA porte un compte à rebours invisible.