--- title: Prompting a catena di pensiero: dai all’IA un foglio di brutta description: Aggiungere 'let's think step by step' ai tuoi prompt può migliorare drasticamente i compiti di ragionamento. Ecco cosa dice la ricerca, quando funziona e quando no. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- Nel gennaio 2022, alcuni ricercatori di Google pubblicarono uno studio che cambiò il modo in cui si parla di IA. Scoprirono che aggiungere una frase semplice prima di chiedere ai modelli linguistici di risolvere problemi poteva far salire l’accuratezza dal 17,7% al 78,7% nei problemi di matematica a parole. La frase? "Let's think step by step." Non era magia. Era il [prompting a catena di pensiero](https://arxiv.org/abs/2201.11903), una tecnica che dà all’IA qualcosa come un foglio di brutta per lavorare i problemi. ## La ricerca dietro Jason Wei e colleghi di Google Brain eseguirono esperimenti su tre grandi modelli linguistici. Testarono ragionamento aritmetico, domande di senso comune e manipolazione simbolica. Lo schema reggeva in tutte le categorie: quando i modelli mostravano i passaggi, azzeccavano più risposte. Sul [benchmark di matematica GSM8K](https://research.google/blog/language-models-perform-reasoning-via-chain-of-thought/), il loro modello da 540 miliardi di parametri arrivò al 58% di accuratezza con il prompting a catena di pensiero. Prompt standard? Neanche lontanamente. Uno studio successivo con la self-consistency portò il risultato a 74%. Il risultato più sorprendente arrivò da Sports Understanding. PaLM 540B raggiunse il 95% di accuratezza, superando esperti umani senza aiuti che si fermavano all’84%. Pochi mesi dopo, [ricercatori dell’Università di Tokyo e di Google](https://arxiv.org/abs/2205.11916) pubblicarono "Large Language Models are Zero-Shot Reasoners." Scoprirono che non servono nemmeno esempi. Basta aggiungere "Let's think step by step" e l’accuratezza su MultiArith salta dal 17,7% al 78,7%. GSM8K passa dal 10,4% al 40,7%. Sono 61 punti percentuali in più con una sola frase. ## Perché funziona? Un utente di Hacker News chiamato leobg [ha spiegato bene la meccanica](https://news.ycombinator.com/item?id=35503044): > "I think the idea is that the LLM cannot think internally. It's output _is_ its thinking process. Especially with an auto regressive architecture like GPT, where each output token becomes part of the input. I imagine it like handing the LLM a piece of scratch paper." Coglie un punto importante. I modelli linguistici generano un token alla volta. Ogni token diventa contesto per il successivo. Quando chiedi risposte immediate, il modello deve comprimere tutto il ragionamento nello scegliere la prima parola giusta. Ma quando chiedi i passaggi, ogni conclusione intermedia diventa parte dell’input per ciò che segue. Prendi questo problema di matematica: "Roger ha 5 palline da tennis. Compra altre 2 confezioni da 3. Quante palline da tennis ha adesso?" Per risolverlo serve capire il testo, individuare le operazioni e calcolare correttamente. Chiedere direttamente la risposta costringe il modello a fare tutto questo nel salto dalla domanda al numero. Chiedere i passaggi gli permette di fissare ogni pezzo. Roger parte da 5. Compra 2 confezioni. Ogni confezione ha 3 palline. Quindi compra 6 palline. 5 più 6 fa 11. Ogni frase vincola la successiva. Il modello costruisce verso la risposta invece di indovinarla. ## La fregatura che nessuno dice subito Ecco cosa saltano gli articoli da clamore: il prompting a catena di pensiero funziona solo con modelli grandi. La ricerca originale lo descrive come un'"emergent property of model scale." Sotto più o meno 100 miliardi di parametri, chiedere ragionamenti passo passo peggiorava davvero le prestazioni. I modelli più piccoli producevano catene che _sembravano_ ragionamenti ma contenevano errori logici. I passaggi, detti con sicurezza, portavano a risposte sbagliate più spesso rispetto a una richiesta diretta. Se stai usando un modello locale più piccolo, questa tecnica potrebbe ritorcersi contro. Provala. Confronta i risultati con e senza l’istruzione passo passo. Non dare per scontato che la ricerca si applichi alla tua configurazione. ## Due modi per farlo **Approccio zero-shot**: aggiungi solo la frase. Nessun esempio necessario. > "Una mazza e una pallina costano $1.10 in totale. La mazza costa $1 in più della pallina. Quanto costa la pallina? Pensiamoci passo per passo." Funziona sorprendentemente bene. Non costa nulla in più in lunghezza del prompt. **Approccio few-shot**: mostra prima al modello come appare un buon ragionamento. > Ecco un problema di matematica e come risolverlo passo per passo: > > Domanda: Ci sono 15 alberi nel boschetto. Oggi gli operai pianteranno alberi. Quando avranno finito, ci saranno 21 alberi. Quanti alberi hanno piantato oggi gli operai? > > Ragionamento: Partiamo da 15 alberi. Arriviamo a 21 alberi. La differenza è ciò che è stato piantato. 21 meno 15 fa 6. > > Risposta: 6 > > Ora risolvi questo allo stesso modo: > [la tua domanda vera] Il few-shot consuma più token, ma spesso produce risultati migliori sui compiti complessi. Gli esempi insegnano formato e profondità, non solo l’idea generale di “mostrare i passaggi”. ## Compiti che ne beneficiano Il prompting a catena di pensiero brilla nei problemi con più passaggi, dove gli errori si accumulano. Problemi di matematica a parole. Rompicapi logici. Pianificazione a più passaggi. Qualsiasi cosa per cui useresti un foglio di brutta anche tu. L’[analisi di IBM](https://www.ibm.com/think/topics/chain-of-thoughts) evidenzia applicazioni pratiche: bot di assistenza clienti che scompongono i problemi, attività di ricerca che richiedono costruire ipotesi, spiegazioni didattiche in matematica e scienze. La tecnica funziona meglio quando il compito ha davvero passaggi intermedi che informano la risposta finale. Un altro commentatore su Hacker News, travisjungroth, [ha fatto un’osservazione che mi è rimasta](https://news.ycombinator.com/item?id=35503044): > "Most writing about anything difficult is product, not process. Articles get drafts before being published. People think about answers before writing them down. How to Solve It does a great job explaining this about math problems. The steps to the proof are not the steps to creating the proof. So when you go to solve a problem by mimicking the solutions to problems, something is missing." Conta. La soluzione pubblicata di un problema di matematica non assomiglia per niente al processo reale per arrivarci. I modelli linguistici, addestrati su risposte finali ripulite, non hanno mai visto il lavoro sporco che le ha generate. Chiedere i passaggi ricrea qualcosa che nell’addestramento mancava. ## Compiti che non ne beneficiano Le domande da “enciclopedia” non guadagnano nulla. Chiedere "Qual è la capitale della Francia?" con istruzioni passo passo produce solo più testo senza migliorare l’accuratezza. Il modello ha già la risposta pronta. I compiti che richiedono creatività più che ragionamento migliorano meno. Scrivere poesia, generare testi pubblicitari, trovare nomi. Non hanno passaggi logici da mostrare. Costringerli dentro uno schema di ragionamento risulta goffo e può vincolare inutilmente il risultato. Una [ricerca recente](https://bdtechtalks.com/2024/05/13/chain-of-thought-planning/) ha rilevato che i benefici non si generalizzano così tanto come suggeriva il clamore iniziale. I prompt CoT migliorano i modelli su specifici compiti di pianificazione, ma non si trasferiscono bene tra domini. I miglioramenti sono reali, ma più stretti di quanto a volte si dica. Inoltre non c’è garanzia che il ragionamento sia fedele. Il modello può produrre passaggi plausibili che non riflettono davvero come sia arrivato alla risposta. Questo crea un rischio di falsa sicurezza: vedi una catena logica e dai per scontato che sia corretta, ma i passaggi potrebbero essere una razionalizzazione a posteriori, non un ragionamento reale. ## Il costo computazionale conta Più token significa più tempo e più soldi. Se stai chiamando un’API, le risposte con catena di pensiero costano più delle risposte dirette. In applicazioni ad alto volume, la differenza si sente in fretta. Chiediti se il guadagno di accuratezza giustifica il costo. Un bot di assistenza clienti che risponde a FAQ semplici probabilmente non ha bisogno di catene di ragionamento. Un sistema che fa calcoli finanziari, probabilmente sì. ## Metterlo in pratica Per problemi di matematica e logica, parti con lo zero-shot. Aggiungi "Let's think step by step" o "Risolvi questo passo per passo" al tuo prompt. Confronta i risultati con il tuo riferimento. Per compiti complessi con più passaggi, valuta esempi few-shot che mostrino la profondità di ragionamento che vuoi. Uno o due buoni esempi spesso battono lo zero-shot puro sui problemi più difficili. Per tutto ciò che riguarda la pianificazione, prova a spezzare il compito in fasi esplicite. Chiedi prima il piano, poi l’esecuzione. È la catena di pensiero applicata a livello di attività, non di singola frase. Se l’accuratezza conta più della velocità, aggiungi un passaggio di verifica. Dopo che il modello arriva a una risposta, chiedigli di controllare il lavoro. Questo intercetta alcuni errori che passano nel primo giro. Ecco un esempio che mostra la differenza sul campo: **Senza catena di pensiero:** > "Il fatturato di un’azienda è cresciuto del 20% nel Q1 e poi è sceso del 15% nel Q2. Qual è la variazione netta?" > > Modello: "5% di crescita" Quella risposta è sbagliata. Il modello ha moltiplicato invece di calcolare le percentuali composte. **Con catena di pensiero:** > "Il fatturato di un’azienda è cresciuto del 20% nel Q1 e poi è sceso del 15% nel Q2. Qual è la variazione netta? Lavoriamoci passo per passo." > > Modello: "Partendo da 100 come base. Dopo una crescita del 20%: 100 x 1.20 = 120. Dopo un calo del 15% da quel nuovo valore: 120 x 0.85 = 102. Variazione netta: 102 - 100 = 2, quindi 2% di crescita." Il ragionamento forzato evita l’errore da scorciatoia. Il modello non può saltare a "20 meno 15" perché deve attraversare il calcolo reale. ## Varianti utili da conoscere La tecnica di base ha generato diverse estensioni. **Self-consistency** genera più percorsi di ragionamento e prende la risposta di maggioranza. Se chiedi al modello di risolvere un problema cinque volte con catena di pensiero e ottieni la stessa risposta quattro volte, quella risposta probabilmente è corretta. Questo approccio ha portato l’accuratezza su GSM8K dal 58% al 74% nello studio successivo di Google. **Tree of Thoughts** esplora più rami di ragionamento in parallelo, invece di impegnarsi su un unico percorso. Utile quando esistono davvero approcci diversi al problema e vuoi esplorarne più di uno prima di scegliere. **Least-to-Most prompting** scompone problemi complessi in sottoproblemi, risolve prima quelli più semplici e usa quelle soluzioni per attaccare i pezzi più difficili. Buono per problemi con gerarchie o dipendenze naturali. Queste varianti aggiungono complessità. Prima padroneggia la versione base. La maggior parte delle persone ottiene valore significativo semplicemente aggiungendo "let's think step by step" e non ha mai bisogno di approcci più elaborati. ## Il quadro generale Il prompting a catena di pensiero funziona perché sfrutta il modo in cui questi modelli operano davvero. Sono predittori del prossimo token. Ogni parola vincola la probabilità di ciò che segue. Chiedere il ragionamento crea vincoli utili che si accumulano fino a risposte corrette. Potrebbe diventare obsoleto. Modelli addestrati specificamente per il ragionamento, come quelli con modalità “thinking” integrate, potrebbero interiorizzare questi schemi. Il prompt esplicito potrebbe diventare inutile quando il comportamento entra nei pesi del modello. Ma per ora, con i modelli attuali, la tecnica resta utile. Costa una frase e può moltiplicare l’accuratezza sui compiti giusti. La chiave è sapere quali sono. Come fai a sapere se il ragionamento che un modello ti mostra è il ragionamento che ha davvero usato?