--- title: Oltre il prompting di base: pattern che cambiano davvero il modo in cui l'IA "pensa" description: Vai oltre i prompt semplici con tecniche come self-consistency, Tree of Thought e meta-prompting. Metodi pratici che producono output migliori. date: February 5, 2026 author: Robert Soares category: prompt-engineering --- La maggior parte dei consigli sul prompting è ovvia. Sii specifico. Dai esempi. Aggiungi contesto. Questo ti porta forse al 60% di un output utile. Il restante 40% è dove le cose diventano interessanti — perché è lì che i modelli di linguaggio iniziano a fallire in modi prevedibili e serve un modo completamente diverso di ragionare. Le tecniche qui non sono segrete. Sono ben documentate nei paper e discusse continuamente su forum come Hacker News e Reddit. Ma capire quando applicarle — e, soprattutto, quando non farlo — separa chi ottiene risultati buoni in modo consistente da chi incolpa il modello quando qualcosa va storto. ## Perché i modelli di linguaggio falliscono in modi prevedibili Ecco il problema centrale. Gli LLM generano testo da sinistra a destra, un token alla volta. Ogni token restringe ciò che viene dopo. Una volta che il modello si impegna in un percorso di ragionamento, raramente torna indietro. Questo va benissimo per domande semplici. Fallisce quando serve esplorare. Un [commentatore su Hacker News](https://news.ycombinator.com/item?id=42555320), cube2222, ha illustrato il problema degli errori che si accumulano: "if each step has a 97% chance of being completed correctly, if your task requires 10 steps one after the other, the chance of success falls to 97%*10=74%." Dieci passaggi con un tasso di errore del 3% per passaggio ti portano al 74% di successo. Venti passaggi? Circa 54%. I pattern che seguono affrontano tutti questa limitazione fondamentale. Aggiungono esplorazione dove prima c’era solo commitment. Verifica dove prima c’era solo generazione. Ramificazione dove prima c’era solo linearità. ## Self-Consistency: chiedi più volte, fidati della maggioranza La tecnica avanzata più semplice. Esegui lo stesso prompt più volte con una temperatura più alta. Estrai la risposta finale da ogni output. Prendi quella più comune. Funziona perché i modelli di linguaggio sono probabilistici. La stessa domanda produce percorsi di ragionamento diversi a ogni run. A volte questi percorsi contengono errori che poi si propagano. Ma run diverse fanno errori diversi. Quando aggregi, il ragionamento corretto si rafforza mentre gli errori si annullano. La matematica è semplice. Se il modello dà la risposta giusta il 60% delle volte in un singolo run, cinque run indipendenti con voto di maggioranza spingono l’accuratezza verso l’80%. La tecnica è stata [proposta da Wang et al.](https://arxiv.org/abs/2203.11171) e ha mostrato miglioramenti significativi su aritmetica e ragionamento di buon senso. La self-consistency brilla su problemi con una sola risposta verificabile. Rompicapi logici. Domande fattuali. Qualunque cosa tu possa controllare. Fa più fatica su compiti creativi (non c’è una risposta “giusta”) o su problemi in cui il modello commette lo stesso errore sistematico indipendentemente dal percorso. Il costo è ovvio. Paghi 5–10 volte i token. Per un sistema in produzione con milioni di query, l’economia spesso non regge. Per singole query ad alto rischio, dove l’accuratezza conta più del costo, funziona. ## Tree of Thought: quando il ragionamento lineare non basta Il chain-of-thought prompting, cioè chiedere al modello di mostrare i passaggi, aiuta in molti problemi. Ma una volta che il modello parte lungo un percorso di ragionamento, si impegna. Tree of Thought cambia tutto questo. Invece di generare un solo percorso, generi più possibili “passi successivi” a ogni punto decisionale. Li valuti. Segui solo i rami promettenti. Puoi tornare indietro quando una linea non porta da nessuna parte. Su certi problemi i guadagni sono enormi. Nel puzzle "Game of 24", dove usi quattro numeri e operazioni di base per arrivare esattamente a 24, [ricercatori di Princeton](https://arxiv.org/abs/2305.10601) hanno trovato che GPT-4 con chain-of-thought standard risolveva solo il 4% dei problemi. Con Tree of Thought? 74%. Non è un miglioramento marginale. È la differenza tra inutile e utile. Ma la tecnica ha costi reali oltre ai token. Su [Hacker News](https://news.ycombinator.com/item?id=36085538), l’utente startupsfail ha segnalato difficoltà pratiche: "it is: costly, slow, there is node collapse, it impacts context length, it injects biases." Il sovraccarico di più generazioni per step, la valutazione di ogni ramo e il tracciamento dell’intera struttura ad albero cresce in fretta. Tree of Thought vale il costo per problemi di pianificazione, puzzle con più approcci validi e attività creative in cui la prima idea raramente è la migliore. Per domande fattuali semplici, è eccesso: brucia token senza migliorare i risultati. ## Prompt chaining: spezzare il lavoro complesso in fasi Alcune attività sono troppo complesse per un singolo prompt. Non perché il modello non regga la complessità, ma perché il problema ha fasi davvero distinte che beneficiano di approcci diversi. Il prompt chaining divide il lavoro in fasi in cui l’output di un prompt alimenta l’input del successivo. Estrai le citazioni rilevanti da un documento nel prompt uno. Usa solo quelle citazioni per rispondere a una domanda nel prompt due. Il primo è solo ricerca. Il secondo è solo ragionamento. Questa separazione fa diverse cose. Mantiene ogni prompt focalizzato su un solo compito, cosa che i modelli gestiscono meglio delle istruzioni multi-parte. Ti permette di ispezionare i risultati intermedi e intercettare errori prima che si propaghino. E ti consente di usare configurazioni diverse tra le fasi — temperature diverse o addirittura modelli diversi, ciascuno sfruttato per i propri punti di forza. Un [utente su Hacker News](https://news.ycombinator.com/item?id=44182188), coolKid721, ha descritto il flusso di lavoro: "Breaking it down into parts and having multiple prompts with smaller context that all have structured output you feed into each other." La tecnica si rompe quando gli step hanno dipendenze strette che non si separano bene, o quando l’output intermedio perde contesto necessario più avanti. Puoi passare più informazioni lungo la catena, ma aumenti i token e crei nuovi punti di fallimento. Inizia con due fasi. Falle funzionare bene. Aggiungine altre solo quando hai evidenza chiara che la divisione aiuta. ## Reflection: far controllare al modello il proprio lavoro Se ChatGPT può pensare, può farlo solo ad alta voce. Tutto ciò che il modello considera deve apparire nel suo output. Non c’è una deliberazione interna nascosta. I prompt di reflection sfruttano questo rendendo esplicito il self-checking. Chiedi al modello di risolvere un problema e poi di rivedere la soluzione e trovare errori. Su [Hacker News](https://news.ycombinator.com/item?id=36085538), l’utente nate ha condiviso un’osservazione comune: "I constantly ask chatGPT: 'are you sure?' to it's replies, and it almost always corrects a mistake." Semplice. E spesso funziona. Perché funziona, se il modello che sbaglia e quello che controlla sono gli stessi pesi, lo stesso training? Parte della risposta è l’allocazione dell’attenzione. Quando genera una risposta, il modello deve capire il problema, pianificare e produrre output coerente insieme. Quando rivede, deve solo verificare se ciò che esiste è corretto. È un compito più semplice. Ma la reflection ha un tranello. Lo stesso thread HN includeva un avvertimento da dr_kiszonka: "it also corrects 'mistakes' if there aren't any." Quando chiedi “are you sure?”, stai implicando dubbio e i modelli sono addestrati a rispondere alle preoccupazioni. A volte questo significa cambiare una risposta corretta in una sbagliata solo per sembrare utile. Prompt di reflection più sofisticati riducono il problema. Invece di un dubbio vago, prova “review your solution step by step and verify each logical move” oppure “identify any assumptions you made that might not hold.” Dai criteri di valutazione specifici invece di un invito aperto a dubitare di tutto. Il framework [Reflexion](https://arxiv.org/abs/2303.11366) formalizza questo in un loop: tentativo, valutazione, reflection su cosa è andato storto, nuovo tentativo con quella reflection come contesto. Il modello genera una breve spiegazione del perché probabilmente ha fallito, e quella spiegazione diventa parte del contesto del tentativo successivo. ## Meta-Prompting: usare l’IA per scrivere i tuoi prompt Perché scrivere prompt da soli quando il modello può scriverli? Il meta-prompting chiede al modello di generare o migliorare prompt per un’attività. Descrivi ciò che vuoi ottenere e il modello produce un prompt pensato per farlo. Poi puoi chiedergli di criticare e rifinire quel prompt prima di usarlo. La tecnica nasce da un’osservazione: spesso i modelli sanno cosa rende un prompt efficace anche quando l’utente non lo sa. Sono stati addestrati su innumerevoli esempi di istruzioni efficaci. Chiedergli di applicare quella conoscenza al design dei prompt rende quell’expertise accessibile. Ricercatori di Stanford hanno pubblicato lavoro su "Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding" che formalizza queste idee. La tecnica offre vantaggi in efficienza dei token e consente un confronto più equo tra approcci diversi di problem solving. Non tutti sono convinti. Un [commentatore su Hacker News](https://news.ycombinator.com/item?id=38657029), lexandstuff, è stato secco: "Role prompting is totally useless imo...Be clear with your requirements. Add examples, if necessary." Lo scetticismo ha senso. Il meta-prompting funziona meglio quando non sei sicuro della struttura del prompt ma sei chiaro sull’obiettivo. È meno utile quando la sfida è capire cosa vuoi o quando la conoscenza di dominio conta più del formato. Dove il meta-prompting brilla: generare varianti di prompt da testare, migliorare prompt che “quasi” funzionano ma suonano goffi, capire quali elementi rendono un prompt efficace guardando i suggerimenti del modello. ## Modelli di ragionamento: questi pattern, ma integrati Il modello o1 di OpenAI e “reasoning models” simili di altri lab stanno incorporando questi pattern direttamente nel modello. Tree of thought. Self-consistency. Reflection. Chain-of-thought che torna davvero indietro. Una [discussione su Hacker News](https://news.ycombinator.com/item?id=41527143) ha mostrato il trade-off. L’utente arthurcolle ha notato: "they aren't letting you see the useful chain of thought reasoning that is crucial to train a good model." OpenAI nasconde le tracce di ragionamento mostrando solo riassunti. Ottieni i benefici senza capire come il modello sia arrivato alla risposta. I modelli di ragionamento costano di più e sono più lenti dei modelli base. Per molte attività sono eccesso. I pattern di prompting in questo articolo ti permettono di aggiungere capacità di ragionamento in modo selettivo, solo dove serve, al livello di costo adatto a ogni query. ## Sapere quando usare cosa Queste tecniche risolvono problemi diversi. Mescolarle a caso spreca token e tempo. **Self-consistency** ti dà confidenza quando puoi permetterti più run. Usala per matematica, logica e domande fattuali. Tutto ciò che ha una risposta verificabile beneficia del meccanismo di voto. **Tree of Thought** vale il costo quando i problemi hanno più approcci validi. Pianificazione. Compiti creativi in cui la prima idea non è necessariamente la migliore. Puzzle che premiano l’esplorazione. **Prompt chaining** si adatta ad attività con fasi distinte. Flussi di lavoro complessi. Attività che mescolano retrieval e ragionamento. La domanda chiave è se li spezzetteresti in passi anche facendoli manualmente. **Reflection** aggiunge verifica quando l’accuratezza conta. Generazione di codice. Argomentazioni logiche. Qualunque output che vorresti controllare. La tecnica è economica: un prompt in più e spesso trova errori reali. **Meta-prompting** aiuta quando non sai come prompter per un nuovo tipo di attività o quando vuoi generare velocemente variazioni da testare. La vera abilità sta nella combinazione. Un sistema in produzione potrebbe usare prompt chaining per spezzare il lavoro, tree of thought per la pianificazione, self-consistency per la risposta finale e reflection per intercettare errori prima dell’output. Ogni tecnica risolve un tipo di fallimento diverso. ## Cosa indica tutto questo Ogni tecnica qui aggira la stessa limitazione: i modelli generano in modo lineare e non esplorano, verificano o tornano indietro in modo naturale. Self-consistency aggiunge esplorazione tramite più run. Tree of Thought aggiunge ramificazione e potatura. Reflection aggiunge verifica. Prompt chaining aggiunge decomposizione. Chi capisce quando applicare cosa non sta collezionando trivia. Sta imparando ad architettare sistemi che “pensano” in modi diversi a seconda di ciò che il problema richiede. Un [commentatore su Hacker News](https://news.ycombinator.com/item?id=37130531), idopmstuff, ha inquadrato bene la competenza: "prompting is basically the same thing as writing requirements as a PM. You need to describe what you want with precision and the appropriate level of detail." I modelli continueranno a migliorare. Il ragionamento si sposterà sempre più “dentro i pesi”. Ma l’insight resta: problemi diversi richiedono strutture di pensiero diverse. Sapere quale struttura si adatta a quale problema è la vera competenza.