--- title: La percée des transformers en 2017 : comment huit chercheurs ont recâblé l'IA description: Une explication claire en langage simple de l'article « Attention Is All You Need » qui a créé l'architecture derrière GPT, Claude et tous les grands modèles d'IA que vous utilisez aujourd'hui. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Huit chercheurs chez Google ont publié un article en juin 2017. Son titre était malicieux, un clin d'œil aux Beatles : "Attention Is All You Need." L'article faisait 15 pages. Il décrivait une architecture appelée transformer. Cet article a fait exploser l'IA. ## L'ancien monde : les réseaux de neurones récurrents Avant les transformers, les modèles de langage traitaient le texte de manière séquentielle, ce qui est une façon compliquée de dire qu'ils lisaient un mot à la fois, de gauche à droite, exactement comme des humains qui lisent à voix haute à des enfants. Cette architecture avait un nom : les réseaux de neurones récurrents. Les RNN. Le problème, quand on lit un mot à la fois, c'est qu'on oublie ce qui venait avant. Et l'architecture des RNN aggravait ce problème, parce qu'ils peinaient à conserver l'information sur de longues séquences. Au cinquantième mot, le troisième avait quasiment disparu de la mémoire de travail du modèle, noyé dans un bruit numérique qui dégradait les calculs en aval. Une variante appelée Long Short-Term Memory networks, ou LSTM, a amélioré les choses en 1997. Ils ont ajouté des portes : des mécanismes capables de décider quoi garder et quoi oublier. Les LSTM fonctionnaient mieux. Ils sont devenus la norme. Mais les LSTM avaient leur propre problème : le traitement séquentiel. Pour traiter le mot dix, il fallait la sortie du mot neuf, qui dépendait du mot huit, qui dépendait du mot sept. Aucun raccourci. Aucun parallélisme. L'entraînement avançait au ralenti parce que les GPU restaient inactifs, à attendre la fin des calculs précédents avant de lancer les suivants. Comme l'a noté un commentaire sur Hacker News dans une discussion de 2020 sur l'article original : "It's clearly important but I found that paper hard to follow." Le domaine était prêt pour quelque chose de plus simple. Quelque chose de plus rapide. Quelque chose qui pouvait vraiment passer à l'échelle. ## L'idée clé : tout regarder en même temps L'innovation centrale du transformer a été d'abandonner complètement la séquence. Au lieu de traiter les mots un par un, les transformers regardent tous les mots simultanément. Au lieu de se souvenir de ce qui venait avant, ils calculent en temps réel les relations entre chaque mot et tous les autres. À chaque fois. Cela semble coûteux en calcul. Ça l'est. Mais cela se parallélise parfaitement. Chaque comparaison mot-à-mot peut être effectuée en même temps sur différents cœurs GPU. Un entraînement qui prenait des semaines avec des RNN prenait des jours avec des transformers. Le mécanisme qui permet cela s'appelle l'attention. Plus précisément, la self-attention. ## Self-attention : le mécanisme central Voici une phrase : "The dog didn't cross the street because it was too tired." À quoi renvoie "it" ? Au chien. Évidemment. Les humains résolvent cela instantanément. On n'y pense pas consciemment. On le sait, c'est tout. Mais comment une machine pourrait-elle le comprendre ? La self-attention calcule un score entre chaque paire de mots. Lors du traitement de "it", le modèle calcule le niveau d'attention que "it" doit accorder à chaque autre mot : "the," "dog," "didn't," "cross," "the," "street," "because," "was," "too," "tired." Le mot "dog" obtient un score d'attention élevé. Le mot "street" en obtient un faible. Cela se produit pour tous les mots en même temps. Le modèle construit une représentation pondérée dans laquelle chaque mot intègre l'information provenant de tous les autres mots qui comptent pour lui. La distance n'a pas d'importance. "Dog" peut être à trois mots ou à trente. Le mécanisme d'attention le retrouve dans les deux cas. Jay Alammar, dont Illustrated Transformer est devenu une lecture incontournable pour quiconque apprend ce sujet, l'a résumé simplement : "Self-attention is the method the Transformer uses to bake the 'understanding' of other relevant words into the one we're currently processing." ## Plusieurs perspectives : l'attention multi-têtes Un seul mécanisme d'attention capte un seul type de relation. Or le langage fait intervenir de nombreux types de relations en même temps : relations grammaticales, sémantiques, référentielles, temporelles. Le transformer utilise plusieurs « têtes » d'attention en parallèle. Chaque tête apprend à se concentrer sur des motifs différents. L'une peut suivre l'accord sujet-verbe. Une autre peut suivre les références pronominales. Une autre encore peut capter la similarité sémantique. Alammar explique l'avantage : "It expands the model's ability to focus on different positions" et "It gives the attention layer multiple 'representation subspaces.'" Les résultats de toutes les têtes sont ensuite combinés. Le modèle voit la phrase sous plusieurs angles à la fois, en intégrant différents types d'information linguistique dans une représentation unique et riche, qui capture davantage que ce qu'un seul mécanisme d'attention pourrait capter. ## La position sans séquence Voici un problème subtil. Si on traite tous les mots simultanément, comment connaître leur ordre ? "Dog bites man" ne veut pas dire la même chose que "man bites dog." Les transformers résolvent cela en ajoutant des encodages positionnels. Avant le traitement, chaque mot reçoit une information sur sa position, injectée dans sa représentation. Le modèle apprend à utiliser cette information de position. L'ordre des mots est préservé sans traitement séquentiel. C'était l'une des décisions d'ingénierie les plus malignes qui ont permis à l'ensemble de l'architecture de fonctionner. ## Pourquoi ça a vraiment marché Les évaluateurs initiaux de NeurIPS 2017 ont vu quelque chose de spécial. L'un d'eux a noté : "This work introduces a quite strikingly different approach to the problem of sequence-to-sequence modeling." Un autre a reconnu que "the combination of them and the details necessary for getting it to work as well as LSTMs is a major achievement." Les résultats parlaient fort. Sur le benchmark de traduction WMT 2014 anglais-allemand, le transformer a atteint 28.4 BLEU, dépassant l'état de l'art existant de plus de 2 points. En anglais-français, il a atteint 41.8 BLEU. État de l'art. Encore. Et il s'entraînait plus vite. Beaucoup plus vite. Le parallélisme obtenu en abandonnant le traitement séquentiel permettait d'ajouter du matériel au problème et d'obtenir réellement des gains de vitesse proportionnels. Mais l'impact réel n'était pas dans les benchmarks. Il était dans ce qui est arrivé ensuite. ## Une généralité inattendue Le transformer a été conçu pour la traduction. Langue en entrée, langue en sortie. Personne ne s'attendait à ce qu'il fonctionne pour tout le reste. Il a fonctionné. Dès 2020, les chercheurs ont adapté les transformers aux images. Le Vision Transformer, ou ViT, traite une image comme une séquence de patchs et les traite avec l'attention. Il a égalé ou dépassé les réseaux de neurones convolutifs qui dominaient la vision par ordinateur depuis près de dix ans. Audio. Repliement des protéines. Robotique. Apprentissage par renforcement. Jeu. Génération de code. Une seule architecture revenait partout. Comme l'a observé un utilisateur de Hacker News lors d'une rétrospective en 2020 : "It's crazy to me to see what still feel like new developments (come on, it was just 2017!) making their way into mainstream." Un autre utilisateur a formulé quelque chose de plus profond sur ce qui rendait les transformers différents : "The successful removal of inductive bias is really what differentiates this from previous sequence-to-sequence neural networks." Cette suppression du biais inductif s'est révélée être l'arme secrète des transformers. Les RNN supposaient que la séquence comptait d'une manière précise. Les réseaux convolutifs supposaient que les motifs locaux comptaient d'une manière précise. Les transformers ne supposaient presque rien. Ils apprenaient tout à partir des données. Cela les rendait flexibles. Cela les rendait extensibles. ## La voie vers tout le reste L'article sur le transformer n'a pas créé ChatGPT. Il a créé la fondation. BERT est arrivé en 2018. L'encodeur bidirectionnel de Google utilisait des transformers pour comprendre le contexte du langage dans les deux sens. Il a dominé les benchmarks de compréhension du langage naturel. GPT est arrivé en 2018, chez OpenAI. Generative Pre-trained Transformer. Le mot "transformer" était déjà là, dans l'acronyme. GPT-2 a suivi en 2019. GPT-3, en 2020, est monté à 175 milliards de paramètres et a montré des capacités que personne n'attendait d'un simple changement d'échelle. Claude. Gemini. Llama. Tous les grands modèles de langage actuels sont des transformers ou des dérivés très proches. L'architecture qui a commencé comme une amélioration de la traduction est devenue le socle de la recherche sur l'intelligence artificielle générale. ## Les coûts et les limites Les transformers ne sont pas gratuits. La self-attention compare chaque mot à tous les autres. Avec N mots, cela fait N au carré comparaisons. Doubler la longueur de contexte quadruple le calcul. Cela crée des limites dures. Les premiers transformers géraient quelques milliers de jetons. Les modèles modernes montent à des centaines de milliers, mais chaque extension exige des astuces d'ingénierie : attention clairsemée, fenêtres glissantes, mécanismes de mémoire. Le coût quadratique ne disparaît jamais. On le gère, c'est tout. Un commentaire Hacker News l'a dit sans détour : "The amount of computation for processing a sequence size N with a vanilla transformer is still N^2." Les coûts d'entraînement ont aussi explosé. GPT-4 aurait coûté plus de 100 millions de dollars à entraîner. Seules une poignée d'organisations peuvent financer le développement de modèles de pointe. L'architecture qui démocratisait a aussi créé une industrie qui se recentralise. ## Ce qui vient après En 2025, les chercheurs cherchaient activement des alternatives. Les modèles d'espaces d'états comme Mamba promettaient une mise à l'échelle linéaire au lieu de quadratique. Les architectures à mélange d'experts, apparemment utilisées dans GPT-4, n'activent qu'une partie du modèle pour chaque entrée. L'un des auteurs originels de "Attention Is All You Need", Llion Jones, a pris publiquement position début 2025 : "I'm going to drastically reduce the amount of time that I spend on transformers...I'm explicitly now exploring and looking for the next big thing." Mais les transformers restent dominants. Tout remplaçant doit égaler leurs capacités tout en résolvant leurs limites. Personne n'y est encore parvenu. ## L'article avec le recul Huit auteurs ont écrit "Attention Is All You Need." Ils travaillaient chez Google Brain et Google Research. Le titre était une blague sur les Beatles. Le contenu était sérieux. Qu'est-ce qui a rendu cet article important ? Simplicité. En retirant la récurrence et la convolution, ils ont laissé une architecture plus propre. Les architectures plus simples passent mieux à l'échelle. Les architectures plus simples se transfèrent mieux. Les architectures plus simples durent plus longtemps. Parallélisme. Les GPU existaient. Les grands jeux de données existaient. L'infrastructure pour utiliser les transformers à grande échelle émergeait exactement quand l'architecture est arrivée. Généralité. La même architecture a fonctionné pour la traduction, puis la modélisation du langage, puis les images, puis l'audio, puis la vidéo, puis le repliement des protéines. Une architecture pour tout dominer n'était pas le plan. C'était le résultat. Timing. 2017 était assez tard pour que la puissance de calcul rende les transformers pratiques, et assez tôt pour que toutes les implications mettent des années à se déployer. ## Pourquoi comprendre cela compte Vous n'avez pas besoin de comprendre les scores d'attention pour utiliser Claude ou GPT. Mais comprendre l'architecture de base aide à comprendre pourquoi ces systèmes se comportent comme ils le font. Les transformers sont des machines à motifs. Ils excellent à trouver et à générer des motifs dans les données. Ce ne sont pas des moteurs de raisonnement, même s'ils simulent le raisonnement grâce à une mise en correspondance de motifs très sophistiquée. Le contexte compte parce que les transformers voient tout le contexte que vous fournissez en même temps. Plus de contexte signifie généralement de meilleures sorties. Un contexte incohérent perturbe la mise en correspondance des motifs. Les limites existent parce que la mise à l'échelle quadratique ne pardonne pas. Les documents longs se heurtent à des murs. Les chaînes de raisonnement complexes s'effondrent. L'architecture a de vraies contraintes. Et tous les grands modèles reposent sur la même base. GPT, Claude et Gemini ont l'air différents de l'extérieur. À l'intérieur, ce sont tous des transformers. Comprendre une seule architecture aide à les comprendre tous. Les huit chercheurs qui ont publié "Attention Is All You Need" en 2017 n'auraient pas pu prédire où leur architecture irait. Des modèles de langage qui conversent. Des générateurs d'images qui rêvent. Des assistants de code qui programment. Rien de cela n'était dans l'article original. Tout cela vient des transformers. Les articles les plus déterminants de l'informatique ne s'annoncent pas comme tels. Ils décrivent une technique. Ils rapportent quelques benchmarks. Ils sont publiés. Puis ils changent tout.