--- title: Impostazioni di temperatura e creatività: cosa fanno davvero quei cursori description: Guida senza gergo a temperatura degli LLM, top-p e altre impostazioni. Che cosa controlla ogni parametro, quando modificarli e perché l’etichetta “creativity” è fuorviante. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Da qualche parte tra la tua domanda e la risposta dell’IA, avviene una scelta. Non una scelta. Migliaia. Ogni singola parola che il modello scrive implica una scelta fra alternative che avrebbero potuto stare lì. "Blu" o "chiaro" o "scuro." "Quindi" o "perciò" o "di conseguenza." Ogni scelta plasma tutto ciò che viene dopo. La temperatura è l’impostazione che controlla come vengono fatte quelle scelte. La maggior parte delle persone non la tocca mai. Dovrebbero. ## La macchina delle probabilità Quando un modello linguistico genera testo, non recupera risposte da un database e non sta cercando su internet la risposta migliore alla tua domanda o andando a verificare quella corretta in una gigantesca enciclopedia. Predice. Dato tutto ciò che ha letto durante l’addestramento e tutto ciò che hai scritto nel tuo prompt, il modello calcola la probabilità che ciascuna possibile parola successiva seguirebbe naturalmente. Per "Oggi il tempo è ___," il modello potrebbe calcolare: - soleggiato: 28% di probabilità - bello: 15% di probabilità - terribile: 8% di probabilità - apocalittico: 0,003% di probabilità Queste probabilità arrivano da schemi assorbiti durante l’addestramento, milioni di esempi di come gli esseri umani completano frasi simili, pesati e combinati attraverso strati di matematica delle reti neurali che nemmeno gli ingegneri che l’hanno costruito riescono a spiegare fino in fondo. La temperatura cambia ciò che succede dopo. ## Che cosa fa davvero la temperatura Il termine viene dalla fisica. Nella meccanica statistica, la temperatura descrive come l’energia si distribuisce in un sistema. I sistemi freddi concentrano l’energia in schemi prevedibili. I sistemi caldi la spargono in modo caotico. La matematica si trasferisce quasi direttamente ai modelli linguistici, e qui la parola "temperatura" non è una metafora: è un termine tecnico preso dalla termodinamica perché le equazioni sono quasi identiche. Una temperatura bassa rende più “appuntita” la distribuzione di probabilità. Se "soleggiato" aveva il 28% e "bello" il 15%, abbassare la temperatura potrebbe portarli al 45% e all’8%. I divari si allargano. Il favorito diventa più dominante. Il modello diventa sempre più incline a scegliere l’opzione con probabilità più alta, e le alternative a bassa probabilità vengono quasi sempre scartate. Una temperatura alta appiattisce la distribuzione. Quelle stesse probabilità potrebbero diventare 22% e 18%. I divari si restringono. Le opzioni al secondo e terzo posto hanno più possibilità. Il modello campiona più in largo dalla sua distribuzione di probabilità, includendo parole che a temperatura bassa sceglierebbe quasi mai. A temperatura zero, il modello sceglie sempre e solo la singola parola successiva più probabile. Ogni volta. Lanci lo stesso prompt cento volte, ottieni lo stesso risultato cento volte. Questo a volte si chiama greedy decoding. A temperatura uno, il modello campiona direttamente dalla sua distribuzione grezza di probabilità, senza modifiche. Una parola con il 10% di probabilità ha il 10% di possibilità di essere selezionata. Sopra temperatura uno, le opzioni a bassa probabilità vengono potenziate. La distribuzione si appiattisce ancora di più. Parole che avevano probabilità minuscole adesso ne hanno di reali. ## L’illusione della creatività Molte interfacce di IA etichettano il cursore della temperatura come “creativity”. È marketing. Non ingegneria. La casualità non è creatività. Scegliere parole inaspettate non è la stessa cosa che avere idee interessanti, e la differenza conta enormemente per come dovresti pensare a questa impostazione. Un utente di Hacker News, spywaregorilla, [l’ha detto bene](https://news.ycombinator.com/item?id=35131112): la temperatura è "more like 'willingness to choose less likely answers.'" Questo modo di inquadrarla aiuta. Meno probabile non significa migliore o più creativo. A volte la parola meno probabile è sorprendente e deliziosa. A volte è semplicemente sbagliata. Una temperatura più alta produce davvero un output più vario. Il modello esplora una porzione più ampia del suo spazio di probabilità, e questa esplorazione ogni tanto fa emergere combinazioni che non avresti mai visto a temperatura bassa. Ma “ogni tanto” è la frase chiave. Il più delle volte, le parole a bassa probabilità avevano bassa probabilità per ottimi motivi. Un altro commentatore, noodletheworld, [l’ha messa giù brutalmente](https://news.ycombinator.com/item?id=43673746): "Randomising LLM outputs (temperature) results in outputs that will always have some degree of hallucination. That's just math. You can't mix a random factor in and magically expect it to not exist." Questo è il compromesso. Il determinismo produce coerenza e noia. La casualità produce varietà ed errori. La temperatura è la manopola fra questi due poli. ## Il problema dello zero Se il determinismo evita le allucinazioni, perché non usare sempre temperatura zero? Perché il determinismo ha una sua patologia. I modelli a temperatura zero si impantanano. Finiscono in loop. Si ripetono ossessivamente. Ripiegano sulla formulazione più generica e più probabile per qualunque cosa, producendo un testo che sembra scritto da un burocrate prudente che non vuole mai dire nulla di interessante. Avianlyric su Hacker News [ha spiegato la dinamica](https://news.ycombinator.com/item?id=43823899): "Setting the temperature of an LLM to 0 effectively disables that randomness, but the result is a very boring output that's likely to end up caught in a never ending loop." Una certa quantità di casualità è necessaria per un risultato interessante. La domanda è quanta. ## Top-p: un approccio diverso La temperatura scala le probabilità. Il top-p (detto anche nucleus sampling) limita invece quali opzioni vengono considerate, punto. Il modello continua a calcolare le probabilità per ogni possibile parola successiva. Ma invece di scalarle, il top-p traccia una soglia. Se imposti top-p a 0.9, il modello ordina tutte le parole per probabilità, le somma partendo dalla più probabile e si ferma quando arriva al 90% di probabilità cumulata. Tutto ciò che sta sotto quella linea viene eliminato. Poi il modello campiona solo tra le opzioni rimaste. Questo approccio ha un vantaggio che la temperatura non ha. Si adatta. Quando il modello è sicuro e una parola domina la distribuzione, top-p seleziona naturalmente da un insieme piccolo. Quando il modello è incerto e le probabilità sono sparse su molte opzioni, top-p include più candidati. La temperatura applica la stessa scalatura a prescindere dal contesto. Top-p risponde al livello di fiducia del modello. Nella pratica, top-p tende a produrre una qualità più costante su tipi diversi di prompt. La temperatura può funzionare benissimo per un prompt e malissimo per un altro. Top-p smussa questi estremi. ## Top-k: lo strumento grossolano Top-k è più semplice e più rozzo. Considera esattamente k opzioni, sempre. Imposta top-k a 50 e il modello campiona solo tra le 50 parole successive più probabili. Impostalo a 5 e hai solo 5 opzioni. I valori di probabilità non contano per la soglia, conta solo la classifica. Questo crea problemi ovvi. Alcuni contesti hanno risposte chiaramente giuste in cui meno di 50 opzioni hanno senso. Altri hanno possibilità molto aperte in cui 50 è troppo restrittivo. Top-k non sa distinguere. La maggior parte dei sistemi in produzione preferisce top-p a top-k. L’adattabilità conta. ## Come interagiscono le impostazioni Qui è dove la gente si confonde. Questi parametri possono lavorare insieme, ma spesso si pestano i piedi. L’ordine tipico di elaborazione è: calcolare le probabilità, applicare la scalatura della temperatura, applicare il filtraggio top-p o top-k, poi campionare da ciò che resta. La temperatura arriva per prima. Rimodella l’intera distribuzione. Poi top-p o top-k taglia la coda. Il risultato dipende da entrambe le impostazioni, e l’interazione può essere imprevedibile. La maggior parte della documentazione consiglia di regolare una o l’altra, non entrambe. Se usi top-p, lascia la temperatura a 1.0 così lavori con la distribuzione grezza. Se regoli la temperatura, imposta top-p a 1.0 (che lo disattiva) così la temperatura ha il controllo completo. Regolarle entrambe non è sbagliato, ma rende i risultati più difficili da prevedere e la risoluzione dei problemi più dura quando l’output deraglia. ## Min-p: il nuovo arrivato Negli ultimi mesi è cresciuto l’entusiasmo per un approccio più recente chiamato campionamento min-p, soprattutto tra chi esegue modelli open source in locale. Min-p imposta una probabilità minima relativa all’opzione in cima. Se la parola più probabile ha il 50% e min-p è impostato a 0.1, qualunque parola con meno del 5% (un decimo di 50%) viene eliminata. Come top-p, si adatta al contesto. Quando il modello è sicuro, min-p è permissivo perché anche opzioni moderatamente probabili superano la soglia. Quando il modello è incerto, min-p è restrittivo perché niente supera un’asticella alta. I fornitori di API come OpenAI e Anthropic al momento non offrono min-p. Lo incontrerai solo usando modelli locali tramite strumenti come llama.cpp o text-generation-webui. Ma se stai sperimentando modelli a pesi aperti, min-p vale la pena di capirlo. ## Indicazioni pratiche Compiti diversi richiedono impostazioni diverse. Ecco cosa funziona davvero. **Per la generazione di codice:** Temperatura bassa. Tra 0.0 e 0.3. Gli errori di sintassi non sono creativi. I bug logici non sono sorprese interessanti. Il codice o funziona o non funziona, e più casualità produce solo più output rotto. **Per domande di fatto:** Temperatura bassa. La risposta corretta a "Qual è la capitale della Francia?" è Parigi. Non esiste un’alternativa creativa che la migliori. La casualità può solo peggiorare la risposta. **Per la scrittura professionale:** Temperatura moderata. Tra 0.3 e 0.6. Vuoi un testo professionale e rifinito, non robotico e ripetitivo. Un po’ di variazione mantiene la prosa viva. Troppa variazione introduce errori o scelte di parole strane che minano la credibilità. **Per la scrittura creativa:** Temperatura più alta. Tra 0.7 e 1.0. Qui la casualità aiuta davvero. Scelte di parole inaspettate creano sorpresa. Combinazioni insolite producono immagini nuove. Vuoi che il modello esplori il suo spazio delle possibilità, non che torni sempre ai luoghi comuni. **Per generare idee:** Temperatura massima. Tra 0.9 e 1.2. Vuoi esplicitamente output inatteso. Stai cercando idee che non ti sarebbero venute, e il punto è far emergere opzioni a bassa probabilità. Genera molti risultati e seleziona dopo. ## Il modello conta Modelli diversi reagiscono in modo diverso ai cambiamenti di temperatura. I modelli più grandi tollerano meglio temperature più alte. Hanno assorbito più schemi, più modi di completare qualunque pensiero. Quando campionano da opzioni a bassa probabilità, quelle opzioni sono comunque informate da un addestramento vasto. I modelli più piccoli hanno una conoscenza più sottile. I loro output a bassa probabilità hanno più probabilità di essere nonsense. Anche i modelli più recenti tendono a gestire la temperatura in modo più elegante. I miglioramenti nell’addestramento e nell’architettura hanno ridotto il divario tra la qualità dell’output ad alta temperatura e quella a bassa temperatura. Quello che in GPT-2 avrebbe prodotto del puro gibberish in GPT-4 potrebbe produrre alternative di formulazione interessanti. Se stai usando un tier più economico o un modello più piccolo, tieni la temperatura più bassa. Con modelli potenti, hai più margine per sperimentare. ## Oltre le basi La maggior parte degli utenti incontra solo la temperatura e magari top-p. Chi usa le API potrebbe anche vedere: **Frequency penalty** scoraggia la ripetizione di parole già usate nell’output. Valori più alti significano un deterrente più forte. Questo aiuta con il problema della ripetizione a temperature basse senza aggiungere casualità pura. **Presence penalty** incoraggia l’introduzione di nuovi argomenti invece di restare su ciò che è già stato menzionato. Simile a frequency penalty, ma più legato alla novità concettuale che alla ripetizione di parole. **Max tokens** controlla la lunghezza dell’output. Non ha a che fare con la casualità: riguarda solo quando il modello smette di generare. Queste impostazioni contano soprattutto per gli sviluppatori che costruiscono applicazioni sopra le API dei modelli linguistici. Per il tipico uso in chat, temperatura e top-p sono quelle che vale la pena capire. ## Le impostazioni non sono una strategia Ecco cosa avrei voluto che qualcuno mi dicesse quando ho iniziato a sperimentare con questi controlli: regolare i parametri non è la stessa cosa che dare buone istruzioni. Un prompt brillante con impostazioni predefinite batterà un prompt mediocre con impostazioni perfette. Un contesto chiaro batte scelte furbe sulla temperatura. Esempi specifici battono valori di top-p ritoccati. I fondamentali del comunicare bene con i modelli linguistici contano più dell’ottimizzazione dei parametri. Detto questo, i parametri contano ai margini. Una volta che hai un buon prompt, regolare la temperatura può migliorare in modo significativo i risultati per il tuo caso d’uso specifico. I guadagni sono reali. Solo che non sono i primi guadagni che dovresti inseguire. ## La verità scomoda Le impostazioni della temperatura rivelano una cosa a cui le persone a volte preferiscono non pensare: i modelli linguistici sono sistemi probabilistici che fanno scelte statistiche, non motori di ragionamento che arrivano alle risposte corrette. Quando porti la temperatura a zero e ottieni un output deterministico, non stai ottenendo la risposta giusta. Stai ottenendo la risposta più probabile. Non è la stessa cosa. Quando alzi la temperatura e ottieni un output vario, non stai ottenendo risposte creative. Stai ottenendo risposte campionate. Nemmeno questa è la stessa cosa. Il modello non sa quale parola è corretta. Sa quale parola è probabile. La temperatura controlla quanto rigidamente segue quella probabilità rispetto a quanto esplora alternative. Nessuna delle due scelte rende il modello più intelligente o più accurato. Entrambe cambiano solo quali output, dentro la sua distribuzione di probabilità, finisci per vedere davvero. Capire questa distinzione cambia il modo in cui usi questi strumenti. Smetti di aspettarti che le impostazioni giuste sblocchino una capacità nascosta. Inizi a pensare a quale strategia di campionamento si adatta al tuo compito specifico. Ti abitui alla realtà che i modelli linguistici sono potenti e utili e anche, allo stesso tempo, fondamentalmente diversi da come funziona davvero l’intelligenza. Il cursore della temperatura non è una manopola della creatività. È una manopola della casualità. A volte la casualità ti serve. A volte no. Saper distinguere è quasi tutto quello che c’è da sapere.