--- title: Température et réglages de créativité : ce que font vraiment ces curseurs description: Guide en français clair sur la température, le top-p et d’autres réglages des LLM. Ce que contrôle chaque paramètre, quand les ajuster, et pourquoi l’étiquette « créativité » est trompeuse. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Quelque part entre votre question et la réponse de l’IA, une décision se prend. Pas une décision. Des milliers. Chaque mot que le modèle écrit implique un choix parmi des alternatives qui auraient pu tenir à cet endroit. "Bleu" ou "clair" ou "sombre". "Donc" ou "alors" ou "par conséquent". Chaque choix façonne tout ce qui suit. La température est le réglage qui détermine comment ces choix se font. La plupart des gens n’y touchent jamais. Ils devraient. ## La machine à probabilités Quand un modèle de langage génère du texte, il ne récupère pas des réponses dans une base de données et il ne parcourt pas internet à la recherche de la meilleure réponse à votre question ou pour vérifier la bonne réponse dans une vaste encyclopédie. Il prédit. À partir de tout ce qu’il a lu pendant l’entraînement et de tout ce que vous avez écrit dans votre prompt, le modèle calcule la probabilité que chaque mot possible puisse naturellement suivre. Pour "Le temps aujourd’hui est ___", le modèle pourrait calculer : - ensoleillé : 28 % de probabilité - beau : 15 % de probabilité - horrible : 8 % de probabilité - apocalyptique : 0 003 % de probabilité Ces probabilités viennent de motifs absorbés pendant l’entraînement : des millions d’exemples de la façon dont les humains complètent des phrases similaires, pondérés et combinés à travers des couches de mathématiques de réseaux neuronaux que même les ingénieurs qui l’ont construit ne peuvent pas expliquer entièrement. La température change ce qui se passe ensuite. ## Ce que fait vraiment la température Le terme vient de la physique. En mécanique statistique, la température décrit comment l’énergie se répartit dans un système. Les systèmes froids concentrent l’énergie selon des motifs prévisibles. Les systèmes chauds la dispersent de façon chaotique. Les maths se transposent presque directement aux modèles de langage, et ici le mot "température" n’est pas une métaphore mais un vrai terme technique emprunté à la thermodynamique parce que les équations se ressemblent presque à l’identique. Une température basse accentue la distribution de probabilité. Si "ensoleillé" avait 28 % de probabilité et "beau" 15 %, baisser la température pourrait les faire passer à 45 % et 8 %. Les écarts se creusent. Le favori devient plus dominant. Le modèle devient de plus en plus susceptible de choisir l’option la plus probable, et les alternatives moins probables ne sont presque jamais sélectionnées. Une température élevée aplatit la distribution. Ces mêmes probabilités pourraient devenir 22 % et 18 %. Les écarts se resserrent. Les options en deuxième et troisième position ont plus de chances. Le modèle échantillonne plus largement sa distribution de probabilité, y compris des mots qu’il ne choisirait presque jamais à basse température. À température zéro, le modèle choisit toujours le mot suivant le plus probable. À chaque fois. Lancez le même prompt cent fois, obtenez le même résultat cent fois. On appelle parfois ça du décodage glouton. À température un, le modèle échantillonne directement sa distribution de probabilité brute, sans modification. Un mot à 10 % de probabilité a 10 % de chances d’être sélectionné. Au-dessus de la température un, les options moins probables sont renforcées. La distribution s’aplatit encore. Des mots qui avaient des chances minuscules deviennent de vraies possibilités. ## L’illusion de la créativité Beaucoup d’interfaces d’IA baptisent leur curseur de température "créativité". C’est du marketing. Pas de l’ingénierie. Le hasard n’est pas de la créativité. Choisir des mots inattendus n’est pas la même chose qu’avoir des idées intéressantes, et cette distinction compte énormément pour la façon dont vous devez penser ce réglage. Un utilisateur de Hacker News nommé spywaregorilla [l’a bien dit](https://news.ycombinator.com/item?id=35131112) : la température est "more like 'willingness to choose less likely answers.'" Cette formulation aide. Moins probable ne veut pas dire meilleur ou plus créatif. Parfois, le mot moins probable est surprenant et délicieux. Parfois, il est juste faux. Une température plus élevée produit bien des sorties plus variées. Le modèle explore davantage son espace de probabilités, et cette exploration fait parfois émerger des combinaisons que vous n’auriez jamais vues à basse température. Mais "parfois" est le mot-clé. La plupart du temps, les mots à faible probabilité étaient à faible probabilité pour de bonnes raisons. Un autre commentateur, noodletheworld, [l’a dit sans détour](https://news.ycombinator.com/item?id=43673746) : "Randomising LLM outputs (temperature) results in outputs that will always have some degree of hallucination. That's just math. You can't mix a random factor in and magically expect it to not exist." Voilà le compromis. Le déterminisme donne de la cohérence et de l’ennui. Le hasard donne de la variété et des erreurs. La température est la molette entre ces deux pôles. ## Le problème du zéro Si le déterminisme évite les hallucinations, pourquoi ne pas toujours utiliser la température zéro ? Parce que le déterminisme a sa propre pathologie. Les modèles à température zéro se coincent. Ils tombent dans des boucles. Ils se répètent de façon obsessionnelle. Ils reviennent, pour tout, aux tournures les plus génériques et les plus probables, produisant un texte qui ressemble à celui d’un bureaucrate prudent qui ne veut jamais dire quoi que ce soit d’intéressant. Avianlyric sur Hacker News [a expliqué la dynamique](https://news.ycombinator.com/item?id=43823899) : "Setting the temperature of an LLM to 0 effectively disables that randomness, but the result is a very boring output that's likely to end up caught in a never ending loop." Il faut une certaine dose de hasard pour obtenir une sortie intéressante. La question, c’est : combien. ## Top-p : une autre approche La température met à l’échelle les probabilités. Le top-p (aussi appelé échantillonnage par noyau) limite, lui, les options qui sont prises en compte, tout court. Le modèle calcule toujours des probabilités pour chaque mot suivant possible. Mais au lieu de mettre ces probabilités à l’échelle, le top-p trace une ligne de coupe. Si vous réglez top-p sur 0.9, le modèle trie tous les mots par probabilité, les additionne en partant du plus probable, et s’arrête quand il atteint 90 % de probabilité cumulée. Tout ce qui se trouve en dessous est éliminé. Le modèle échantillonne ensuite uniquement parmi les options restantes. Cette approche a un avantage que la température n’a pas. Elle s’adapte. Quand le modèle est confiant et qu’un mot domine la distribution de probabilité, le top-p sélectionne naturellement un petit ensemble. Quand le modèle est incertain et que les probabilités se répartissent entre beaucoup d’options, le top-p inclut plus de candidats. La température applique la même mise à l’échelle quel que soit le contexte. Le top-p répond au niveau de confiance du modèle lui-même. En pratique, le top-p tend à produire une qualité de sortie plus régulière selon les types de prompts. La température peut être parfaite pour un prompt et catastrophique pour un autre. Le top-p lisse ces extrêmes. ## Top-k : l’instrument grossier Le top-k est plus simple et plus brutal. Il considère exactement k options, quoi qu’il arrive. Réglez top-k sur 50, et le modèle n’échantillonne que parmi les 50 mots suivants les plus probables. Réglez-le sur 5, et vous n’avez que 5 options. Les valeurs de probabilité réelles ne comptent pas pour la coupe, seulement le classement. Ça crée des problèmes évidents. Certains contextes ont des réponses clairement correctes où moins de 50 options ont du sens. D’autres ont des possibilités très ouvertes où 50 est bien trop restrictif. Le top-k ne voit pas la différence. La plupart des systèmes en production préfèrent le top-p au top-k. L’adaptabilité compte. ## Comment les réglages interagissent C’est là que les gens se perdent. Ces paramètres peuvent fonctionner ensemble, mais souvent ils se gênent. L’ordre de traitement typique est : calculer les probabilités, appliquer la mise à l’échelle par température, appliquer le filtrage top-p ou top-k, puis échantillonner ce qui reste. La température intervient en premier. Elle remodèle toute la distribution. Ensuite, le top-p ou le top-k coupe la queue. Le résultat dépend des deux réglages, et leur interaction peut être imprévisible. La plupart des documentations recommandent d’ajuster l’un ou l’autre, pas les deux. Si vous utilisez le top-p, laissez la température à 1.0 pour travailler avec la distribution brute. Si vous ajustez la température, mettez top-p à 1.0 (ce qui le désactive) pour que la température ait le contrôle total. Ajuster les deux en même temps n’est pas faux, mais ça rend les résultats plus difficiles à prévoir, et le dépannage plus difficile quand la sortie part en vrille. ## Min-p : le petit nouveau Ces derniers mois, on a vu un enthousiasme grandissant pour une approche plus récente appelée échantillonnage min-p, en particulier chez les personnes qui font tourner des modèles open source en local. Le min-p fixe une probabilité minimale relative à l’option la plus probable. Si le mot le plus probable a 50 % de probabilité et que le min-p est réglé sur 0.1, tout mot avec moins de 5 % de probabilité (un dixième de 50 %) est éliminé. Comme le top-p, ça s’adapte au contexte. Quand le modèle est confiant, le min-p est permissif parce que même des options moyennement probables passent le seuil. Quand le modèle est incertain, le min-p est restrictif parce que rien ne franchit une barre haute. Les fournisseurs d’API comme OpenAI et Anthropic ne proposent pas actuellement le min-p. Vous ne le rencontrerez qu’en utilisant des modèles locaux via des outils comme llama.cpp ou text-génération-webui. Mais si vous expérimentez avec des modèles à poids ouverts, le min-p vaut la peine d’être compris. ## Conseils pratiques Selon la tâche, on n’utilise pas les mêmes réglages. Voilà ce qui marche réellement. **Pour la génération de code :** Température basse. Entre 0.0 et 0.3. Les erreurs de syntaxe ne sont pas créatives. Les bogues logiques ne sont pas des surprises intéressantes. Le code fonctionne, ou il ne fonctionne pas, et plus de hasard ne fait que produire plus de sorties défectueuses. **Pour les questions factuelles :** Température basse. La bonne réponse à "Quelle est la capitale de la France ?" est Paris. Il n’y a pas d’alternative créative qui améliore ça. Le hasard ne peut que dégrader la réponse. **Pour la rédaction professionnelle :** Température modérée. Entre 0.3 et 0.6. Vous voulez un ton pro et soigné, pas robotique et répétitif. Un peu de variation garde le texte vivant. Trop de variation introduit des erreurs ou des choix de mots étranges qui sapent la crédibilité. **Pour l’écriture créative :** Température plus élevée. Entre 0.7 et 1.0. Ici, le hasard aide vraiment. Des choix de mots inattendus créent la surprise. Des combinaisons inhabituelles produisent des images neuves. Vous voulez que le modèle explore son espace des possibles, pas qu’il revienne par défaut aux clichés. **Pour le remue-méninges :** Température la plus élevée. Entre 0.9 et 1.2. Vous voulez explicitement une sortie inattendue. Vous cherchez des idées auxquelles vous n’auriez pas pensé, et tout l’intérêt est de faire remonter des options à faible probabilité. Générez beaucoup de sorties, puis triez ensuite. ## Le modèle compte Les modèles ne réagissent pas tous de la même façon aux changements de température. Les grands modèles tolèrent mieux les températures élevées. Ils ont absorbé plus de motifs, plus de façons de terminer une pensée donnée. Quand ils échantillonnent des options à faible probabilité, ces options restent informées par un entraînement massif. Les petits modèles ont moins de profondeur. Leurs sorties à faible probabilité ont plus de chances d’être du non-sens. Les modèles plus récents ont aussi tendance à gérer la température de manière plus élégante. Les améliorations d’entraînement et d’architecture ont réduit l’écart de qualité entre une sortie à haute température et une sortie à basse température. Ce qui aurait produit du charabia avec GPT-2 peut produire des reformulations alternatives intéressantes avec GPT-4. Si vous utilisez un palier de modèle moins cher ou plus petit, gardez la température plus basse. Avec des modèles puissants, vous avez plus de marge pour expérimenter. ## Au-delà des bases La plupart des utilisateurs ne voient que la température, et parfois le top-p. Les utilisateurs d’API peuvent aussi voir : **Frequency penalty** décourage la répétition de mots déjà utilisés dans la sortie. Des valeurs plus élevées signifient un découragement plus fort. Ça aide à limiter le problème de répétition à basse température sans ajouter du hasard pur. **Presence penalty** encourage l’introduction de nouveaux sujets plutôt que de s’attarder sur ce qui a déjà été mentionné. C’est similaire à la fréquence, mais ça concerne davantage la nouveauté conceptuelle que la répétition de mots. **Max tokens** contrôle la longueur de la sortie. Rien à voir avec le hasard : c’est juste quand le modèle s’arrête de générer. Ces réglages comptent surtout pour les développeurs qui construisent des applications par-dessus des API de modèles de langage. Pour un usage chat classique, la température et le top-p sont ceux qu’il vaut la peine de comprendre. ## Les réglages ne sont pas une stratégie Voilà ce que j’aurais aimé qu’on me dise quand j’ai commencé à jouer avec ces contrôles : régler des paramètres, ce n’est pas la même chose que donner de bonnes instructions. Un prompt brillant avec des réglages par défaut battra un prompt moyen avec des réglages parfaits. Un contexte clair vaut mieux que des choix de température malins. Des exemples précis valent mieux que des valeurs top-p bricolées. Les fondamentaux de la bonne communication avec les modèles de langage comptent plus que l’optimisation des paramètres. Cela dit, les paramètres comptent en périphérie. Une fois que vous avez un bon prompt, ajuster la température peut améliorer de manière significative les résultats pour votre cas d’usage. Les gains sont réels. Ce ne sont juste pas les premiers gains à poursuivre. ## La vérité qui dérange Les réglages de température révèlent quelque chose que les gens préfèrent parfois ne pas regarder en face : les modèles de langage sont des systèmes probabilistes qui font des choix statistiques, pas des moteurs de raisonnement qui arrivent à des réponses correctes. Quand vous mettez la température à zéro et obtenez une sortie déterministe, vous n’obtenez pas la bonne réponse. Vous obtenez la réponse la plus probable. Ce n’est pas la même chose. Quand vous augmentez la température et obtenez des sorties variées, vous n’obtenez pas des réponses créatives. Vous obtenez des réponses échantillonnées. Ce n’est pas la même chose non plus. Le modèle ne sait pas quel mot est correct. Il sait quel mot est probable. La température contrôle à quel point il suit strictement cette probabilité, versus à quel point il explore des alternatives. Aucun de ces choix ne rend le modèle plus intelligent ou plus exact. Les deux choix ne font que changer quels résultats, issus de sa distribution de probabilités, vous voyez réellement. Comprendre cette distinction change la façon dont vous utilisez ces outils. Vous arrêtez d’attendre que les bons réglages débloquent une capacité cachée. Vous commencez à penser à quelle stratégie d’échantillonnage correspond à votre tâche. Vous vous habituez à la réalité que les modèles de langage sont puissants et utiles, et aussi fondamentalement différents de la façon dont l’intelligence fonctionne réellement. Le curseur de température n’est pas un bouton de créativité. C’est un bouton de hasard. Parfois, le hasard vous sert. Parfois, non. Savoir faire la différence, c’est l’essentiel.