--- title: Qu’est-ce qu’un LLM ? Guide en français clair des grands modèles de langage description: Sans jargon, sans battage. Comprenez ce que font vraiment les grands modèles de langage, pourquoi la prédiction du mot suivant produit une IA étonnamment capable, et où la technologie atteint ses limites. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Votre téléphone prédit des mots. Il apprend vos habitudes. Tapez « à plus » et il suggère « demain » parce que vous avez envoyé cette séquence cent fois. Maintenant, imaginez cette même idée appliquée à pratiquement tout ce que les humains ont écrit, à tout ce qui est disponible sur l’internet public, entraînée sur du matériel qui coûte des millions de dollars et traite l’information d’une manière qui pousse les limites de ce que nous pensions possible pour un ordinateur. Voilà ce qu’est un LLM. Large Language Model. Une machine entraînée à prédire ce qui vient ensuite dans une séquence de texte, à une échelle qui transforme un mécanisme simple en quelque chose qui ressemble presque à une conversation. Le nom se décompose facilement. « Large » renvoie à la taille, à la fois des données d’entraînement (des milliers de milliards de mots) et du modèle lui-même (des milliards à des milliers de milliards de paramètres ajustables). « Language Model » décrit la fonction centrale : modéliser des motifs du langage humain pour prédire les continuations probables d’un texte donné. ## Le pouvoir surprenant de deviner le mot suivant Voici ce qui rend les LLM étranges, fascinants et parfois inquiétants : ils ne comprennent pas le langage comme vous le comprenez. Ils prédisent des motifs. Quand vous demandez à un LLM de « rédiger un email professionnel pour décliner une réunion », le modèle ne « pense » pas aux réunions, au professionnalisme ni à vos contraintes d’agenda. Il calcule des probabilités. Étant donné ces tokens d’entrée, quel token a le plus de chances d’arriver ensuite ? Puis quel token après celui-là ? Le modèle répète cette prédiction des milliers de fois jusqu’à générer une réponse complète qui, de façon étonnamment fréquente, ressemble exactement à ce qu’un humain aurait écrit. Miguel Grinberg, développeur logiciel qui a longuement écrit sur les LLM, le formule sans détour dans [son explication technique](https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math): "All they can do is take some text you provide as input and guess what the next word (or more accurately, the next token) is going to be." C’est tout. Prédiction. Statistiques. Appariement de motifs à une échelle qui donne une impression de magie. Mais pourquoi une simple prédiction produit-elle des paragraphes cohérents ? Pourquoi le fait de deviner le mot suivant aboutit-il à quelque chose qui répond aux questions, écrit du code, explique des concepts, et vous fait parfois rire ? La réponse tient à ce qu’exige une bonne prédiction. Pour deviner correctement le mot suivant dans n’importe quelle phrase possible, il faut avoir absorbé une quantité énorme d’informations sur le fonctionnement du langage, la façon dont les idées se relient, la manière dont les humains structurent des arguments, racontent des histoires et expriment des émotions. La compression nécessaire à une prédiction précise force le modèle à développer des représentations internes qui ressemblent à une forme de compréhension, même si le mécanisme sous-jacent reste fondamentalement différent de la cognition humaine. ## Comment la machine fonctionne Vous tapez une question. Le modèle répond en quelques secondes. Que se passe-t-il entre les deux ? D’abord, votre texte est converti en tokens. Un token est un fragment de mot, en moyenne trois à quatre caractères. Le mot « compréhension » peut devenir deux ou trois tokens. Les espaces et la ponctuation deviennent aussi des tokens. Tout est découpé en ces unités discrètes parce que les réseaux de neurones travaillent avec des nombres, pas avec des lettres. Ces tokens sont transformés en vecteurs, c’est-à-dire de longues listes de nombres qui encodent le sens et les relations. Chaque mot ou fragment de mot devient un point dans un espace mathématique où les concepts proches se regroupent. « Roi » et « reine » sont proches dans cet espace. « Excellent » et « remarquable » aussi. Le modèle a appris ces positions en observant quels mots apparaissent dans des contextes similaires au sein de ses données d’entraînement. Ensuite vient le mécanisme d’attention, la percée qui a rendu les LLM modernes possibles. Avant 2017, les modèles de langage traitaient les mots un par un, dans l’ordre, ce qui les faisait peiner à relier des idées éloignées dans une phrase. L’architecture transformer, introduite dans l’article ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762), a tout changé. Désormais, le modèle peut regarder tous les mots simultanément et déterminer lesquels sont liés à quels autres, quelle que soit la distance. Comme l’explique [Understanding AI](https://www.understandingai.org/p/large-language-models-explained-with), les mots "look around" pour repérer les autres mots qui apportent du contexte pertinent, puis partagent l’information entre eux. Ce processus d’attention se répète sur de nombreuses couches. Chaque couche affine la compréhension des relations entre tokens. À la couche finale, le modèle a construit une représentation riche de l’entrée complète et peut calculer des distributions de probabilité sur tous les tokens suivants possibles. Le modèle choisit un token. L’ajoute à la séquence. Relance le calcul pour choisir le token suivant. Répète jusqu’à ce que la réponse soit complète. C’est pour ça que les LLM peuvent gérer des phrases complexes et imbriquées qui auraient déstabilisé les anciens systèmes. « Le rapport que l’analyste recruté le mois dernier a préparé pour l’équipe de direction doit être révisé » ne pose aucun problème. Le modèle suit que « doit » se rattache à « rapport » malgré tous les mots intermédiaires. ## Tokens, paramètres, fenêtres de contexte Trois termes reviennent sans cesse. Voici ce qu’ils veulent dire. **Tokens** : les unités atomiques avec lesquelles le modèle travaille. Pas tout à fait des mots. Pas tout à fait des caractères. Quelque chose entre les deux. Une phrase comme « J’adore les cookies aux pépites de chocolat » peut devenir cinq ou six tokens. Une page de texte peut faire 300 tokens. C’est important parce que les modèles facturent au token et parce qu’il existe des limites au nombre de tokens qu’un modèle peut traiter d’un coup. **Paramètres** : les valeurs ajustables à l’intérieur du modèle, réglées pendant l’entraînement. Voyez-les comme des boutons et des curseurs qui déterminent la réponse du modèle à une entrée donnée. GPT-4 aurait environ [1.8 trillion parameters](https://en.wikipedia.org/wiki/GPT-4). Plus de paramètres signifie généralement plus de capacités, mais aussi plus de coût de calcul. La relation n’est pas linéaire, et les chercheurs trouvent régulièrement des moyens d’obtenir de meilleures performances avec moins de paramètres. **Fenêtre de contexte** : le nombre de tokens que le modèle peut considérer en même temps, en incluant votre entrée et sa sortie. Les anciens modèles avaient de petites fenêtres, parfois quelques milliers de tokens. Des modèles modernes comme [Llama 4 Scout](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) montent jusqu’à 10 millions de tokens, assez pour traiter des livres entiers ou des bases de code complètes dans une seule conversation. Des fenêtres de contexte plus grandes permettent de garder des échanges cohérents plus longtemps et d’analyser des documents plus volumineux. ## Entraînement : d’où vient la connaissance Les LLM apprennent à partir de texte. D’énormes quantités de texte. Le processus d’entraînement consiste à montrer au modèle des milliards d’exemples et à lui demander de prédire la suite. Quand il se trompe, le modèle ajuste légèrement ses paramètres. Répétez ce processus sur des milliers de milliards de tokens de données d’entraînement, en utilisant des grappes de calcul qui coûtent des dizaines de millions de dollars à exploiter, et le modèle développe progressivement la capacité de prédire la continuation de presque n’importe quel texte que vous pouvez lui donner. Les données d’entraînement incluent généralement des livres, des sites web, des articles académiques, des dépôts de code, des forums et d’autres textes publiquement disponibles. La composition exacte compte. Les modèles entraînés sur plus de code écrivent mieux le code. Les modèles entraînés sur des données plus récentes ont des connaissances plus actuelles. Les modèles entraînés sur des données plus diverses gèrent un plus grand éventail de demandes. Après cette phase initiale de « pré-entraînement », la plupart des modèles commerciaux passent par des phases supplémentaires. Un ajustement fin sur des exemples sélectionnés apprend au modèle à suivre des instructions et à éviter des sorties nuisibles. L’apprentissage par renforcement à partir de retours humains aide le modèle à produire des réponses que des humains jugent utiles et appropriées. Ces étapes supplémentaires façonnent la personnalité et les capacités du modèle au-delà de la simple prédiction. ## Ce que les limites nous révèlent Les limites des LLM révèlent ce qu’ils sont vraiment. Ils hallucinent. Ils génèrent de fausses informations avec une confiance parfaite. Un avocat a tristement déposé un mémoire juridique écrit par ChatGPT qui citait des affaires judiciaires inexistantes. Le modèle avait prédit des noms d’affaires et des citations plausibles, parce que c’est ce que les mémoires juridiques contiennent en général, mais il inventait. Pourquoi ça arrive ? Parce que le modèle prédit des motifs, il n’accède pas à une base de faits vérifiés. Quand les données d’entraînement ont des trous, ou quand le prompt crée des conditions inhabituelles, le modèle comble les blancs avec ce qui semble statistiquement probable. Il n’a aucun mécanisme pour savoir si ses prédictions correspondent à la réalité. Comme l’a noté l’utilisateur Leftium dans une [discussion Hacker News](https://news.ycombinator.com/item?id=40393704) sur la manière d’expliquer les LLM : "Autocomplete seems to be the simplest way of explaining it is just fancy pattern recognition." La reconnaissance de motifs échoue quand le motif exige une connaissance réelle du monde plutôt qu’une connaissance de la forme du texte. Ils ne peuvent pas vérifier. Un LLM ne peut pas contrôler si ses affirmations sont vraies parce qu’il n’a pas accès à une réalité externe au-delà de ce qui était dans ses données d’entraînement. Il ne peut pas faire une recherche. Il ne peut pas appeler une API pour confirmer un fait. Il peut seulement prédire quels mots suivent habituellement d’autres mots. Ils sont incohérents. Posez deux fois la même question, obtenez deux réponses différentes. Ce n’est pas un bug. De l’aléa est introduit volontairement pour éviter des sorties trop prévisibles et ennuyeuses. Mais cela signifie que vous ne pouvez pas compter sur un LLM pour vous donner deux fois exactement la même réponse, ce qui complique tout processus où la cohérence est critique. Ils ont des dates de coupure. La plupart des modèles sont entraînés sur des données qui s’arrêtent à une certaine date. Tout ce qui vient après est inconnu, sauf si vous le fournissez explicitement ou si le modèle a des capacités de recherche web. Les modèles GPT-5.2 ont une date de coupure en août 2025, [selon OpenAI](https://openai.com/index/introducing-gpt-5-2/). Les événements après cette date n’existent tout simplement pas pour le modèle. Ils peinent avec les maths et la logique. Ça peut sembler contre-intuitif vu leurs performances ailleurs, mais c’est une conséquence directe du mécanisme de prédiction. Les mathématiques demandent un calcul précis, et les LLM sont optimisés pour une continuation plausible plutôt que pour un calcul exact. Ils peuvent imiter des raisonnements mathématiques vus dans les données d’entraînement, mais ils ne calculent pas réellement. ## Une autre forme d’intelligence Andrej Karpathy, l’un des chercheurs qui ont contribué à construire les LLM modernes chez OpenAI et Tesla, a proposé une perspective éclairante [citée sur le blog de Simon Willison](https://simonwillison.net/2024/Sep/14/andrej-karpathy/): "It's a bit sad and confusing that LLMs ('Large Language Models') have little to do with language; It's just historical. They are highly general purpose technology for statistical modeling of token streams. A better name would be Autoregressive Transformers or something. They don't care if the tokens happen to represent little text chunks. It could just as well be little image patches, audio chunks, action choices, molecules, or whatever." L’implication est profonde. Les LLM ne sont pas des machines du langage. Ce sont des machines à motifs qui se trouvent être extrêmement efficaces sur le langage, parce que le langage possède une structure statistique riche et apprenable. Mais la même architecture peut modéliser n’importe quelle donnée séquentielle. Cela explique pourquoi les LLM gèrent désormais des images, de l’audio et de la vidéo en plus du texte. Le mécanisme sous-jacent est assez abstrait pour s’appliquer à tout domaine où des motifs existent et où prédire la suite a du sens. ## Pourquoi c’est important pour vous Si vous travaillez dans un domaine qui implique de l’écriture, de l’analyse, de la communication ou du traitement de l’information, les LLM sont déjà en train de changer ce qui est possible. Ils rédigent. Ils résument. Ils brainstorment. Ils traduisent. Ils expliquent. Ils écrivent du code. Ils analysent des documents. Ils font tout ça imparfaitement, avec des réserves, sous supervision humaine. Mais ils le font vite, et la vitesse change les façons de travailler. Un premier brouillon qui prenait deux heures en prend maintenant deux minutes. Un résumé de document qui demandait de lire cinquante pages ne demande plus que la lecture de deux paragraphes. Une séance d’idéation qui produisait dix idées en produit maintenant cent, et même si quatre-vingt-dix sont moyennes, les dix bonnes de plus peuvent contenir quelque chose que vous n’auriez jamais trouvé seul. Le piège, c’est de comprendre l’outil que vous avez entre les mains. Un LLM n’est pas un assistant érudit disponible jour et nuit. C’est un moteur de prédiction qui génère du texte plausible. Parfois, ce texte plausible est exactement ce qu’il vous faut. Parfois, il est faux avec aplomb. Faire la différence exige de comprendre le mécanisme. ## La technologie continue d’avancer Ce qui est vrai en janvier 2026 sera différent en décembre. Les modèles vont plus vite. Ils coûtent moins cher. Ils traitent des entrées plus longues. Ils hallucinent moins, même s’ils hallucinent encore. Leurs capacités de raisonnement progressent, avec des modes de « réflexion » dédiés qui déroulent les problèmes étape par étape au lieu de sauter directement aux réponses. Les capacités multimodales s’étendent. Les modèles les plus récents de Google, OpenAI, Anthropic et Meta gèrent nativement les images et l’audio. Des modèles qui ne traitaient autrefois que du texte analysent maintenant des captures d’écran, interprètent des graphiques et répondent à la voix. Les fondamentaux, eux, restent stables. Prédiction. Motifs. Échelle. Les modèles ne comprennent pas au sens humain. Ils approchent la compréhension via des statistiques appliquées à une échelle qui produit, dans beaucoup de contextes pratiques, des résultats indiscernables d’une vraie compréhension. Savoir si c’est « vraiment » de l’intelligence est une question philosophique. Savoir si c’est utile est une question empirique. Pour la plupart des tâches liées au langage et au texte, la réponse est de plus en plus oui. La question n’est pas de savoir s’il faut utiliser ces outils. La question est de savoir comment les utiliser efficacement, en comprenant ce qu’ils sont et ce qu’ils ne sont pas, pour que leurs points forts vous aident et que leurs limites ne vous piègent pas. C’est la vraie compétence aujourd’hui. Pas des astuces de prompting ni des techniques secrètes. Comprendre suffisamment bien la machine pour savoir quand lui faire confiance et quand vérifier.