--- title: Che cos'è un LLM? Guida in parole semplici ai grandi modelli linguistici description: Niente gergo, niente esagerazioni. Scopri cosa fanno davvero i grandi modelli linguistici, perché la previsione della parola successiva crea un'IA sorprendentemente capace e dove la tecnologia mostra i suoi limiti. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Il tuo telefono predice le parole. Impara le tue abitudini. Scrivi "ci vediamo" e suggerisce "domani" perché hai inviato quella sequenza cento volte prima. Ora immagina la stessa idea applicata, in pratica, a tutto ciò che gli esseri umani hanno mai scritto, a tutto ciò che è disponibile su Internet pubblico, addestrata su hardware che costa milioni di dollari ed elabora informazioni in modi che mettono sotto pressione i confini di ciò che pensavamo potessero fare i computer. Questo è un LLM. Large Language Model. Una macchina addestrata a prevedere cosa viene dopo in una sequenza di testo, eseguita a una scala che trasforma un meccanismo semplice in qualcosa che somiglia quasi a una conversazione. Il nome si scompone in modo pulito. "Large" si riferisce alla dimensione, sia dei dati di addestramento (migliaia di miliardi di parole) sia del modello stesso (da miliardi a migliaia di miliardi di parametri regolabili). "Language Model" descrive la funzione centrale: modellare gli schemi del linguaggio umano per prevedere le continuazioni probabili di un testo dato. ## Il potere sorprendente di indovinare la parola successiva Ecco cosa rende gli LLM strani e meravigliosi e, a volte, inquietanti: non capiscono il linguaggio nel modo in cui lo capisci tu. Predicono schemi. Quando chiedi a un LLM di "scrivere un'email professionale per rifiutare una riunione", il modello non sta pensando alle riunioni o alla professionalità o ai vincoli del tuo calendario. Sta calcolando probabilità. Dati questi token in input, quale token ha più probabilità di venire dopo? E poi quale token dopo ancora? Il modello ripete questa previsione migliaia di volte finché non ha generato una risposta completa che, sorprendentemente spesso, sembra esattamente qualcosa che scriverebbe un essere umano. Miguel Grinberg, uno sviluppatore software che ha scritto molto sugli LLM, lo dice senza giri di parole nel [suo approfondimento tecnico](https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math): "All they can do is take some text you provide as input and guess what the next word (or more accurately, the next token) is going to be." È tutto qui. Previsione. Statistica. Riconoscimento di schemi a una scala che fa sembrare i risultati magia. Ma perché la sola previsione produce paragrafi coerenti? Perché indovinare la parola successiva porta a qualcosa che risponde alle domande, scrive codice, spiega concetti e ogni tanto ti fa anche ridere? La risposta sta in ciò che serve per prevedere bene. Per indovinare con precisione quale parola verrà dopo in qualsiasi frase possibile, devi aver assorbito un'enorme quantità di informazioni su come funziona il linguaggio, su come si collegano le idee, su come gli esseri umani costruiscono argomentazioni, raccontano storie ed esprimono emozioni. La compressione necessaria per prevedere con accuratezza costringe il modello a sviluppare rappresentazioni interne che catturano qualcosa di simile alla comprensione, anche se il meccanismo sottostante rimane fondamentalmente diverso dalla cognizione umana. ## Come funziona il meccanismo Tu scrivi una domanda. Il modello risponde in pochi secondi. Cosa succede nel mezzo? Prima, il tuo testo viene convertito in token. Un token è una parte di parola, in media circa tre o quattro caratteri. La parola "comprensione" potrebbe diventare due o tre token. Gli spazi e la punteggiatura diventano token. Tutto viene scomposto in queste unità discrete perché le reti neurali lavorano con numeri, non con lettere. Quei token vengono trasformati in vettori, che sono lunghe liste di numeri che codificano significato e relazioni. Ogni parola o frammento di parola diventa un punto in uno spazio matematico in cui i concetti simili si raggruppano. "King" e "queen" stanno vicini in questo spazio. Così come "excellent" e "outstanding." Il modello ha imparato queste posizioni osservando quali parole compaiono in contesti simili nei suoi dati di addestramento. Poi arriva il meccanismo di attenzione, la svolta che ha reso possibili gli LLM moderni. Prima del 2017, i modelli linguistici elaboravano le parole una alla volta in sequenza, e questo significava che facevano fatica a collegare idee lontane tra loro in una frase. L'architettura transformer, introdotta nel paper ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762), ha cambiato tutto. Ora il modello può guardare tutte le parole contemporaneamente e determinare quali sono collegate ad altre, indipendentemente dalla distanza. Come descrive una spiegazione di [Understanding AI](https://www.understandingai.org/p/large-language-models-explained-with), le parole "look around" for other words that have relevant context and share information with one another. Questo processo di attenzione si ripete su molti livelli. Ogni livello affina la comprensione del modello delle relazioni tra token. All'ultimo livello, il modello ha costruito una rappresentazione ricca dell'intero input e può calcolare distribuzioni di probabilità su tutti i possibili token successivi. Il modello sceglie un token. Lo aggiunge alla sequenza. Fa ripartire tutto per scegliere il token successivo. Ripete finché la risposta è completa. Ecco perché gli LLM possono gestire frasi complesse e annidate che avrebbero mandato in crisi i sistemi più vecchi. "The report that the analyst who was hired last month prepared for the executive team needs revision" non è un problema. Il modello tiene traccia del fatto che "needs" è collegato a "report" attraverso tutte quelle parole intermedie. ## Token, parametri, finestre di contesto Tre termini ricorrono in continuazione. Ecco cosa significano. **I token** sono le unità atomiche con cui lavora il modello. Non proprio parole. Non proprio caratteri. Qualcosa nel mezzo. Una frase come "I love chocolate chip cookies" potrebbe diventare cinque o sei token. Una pagina di testo potrebbe essere 300 token. Questo conta perché i modelli addebitano per token e perché ci sono limiti al numero di token che un modello può elaborare in una sola volta. **I parametri** sono i numeri regolabili dentro il modello che vengono ottimizzati durante l'addestramento. Pensa a manopole e regolazioni che determinano come il modello risponde a un dato input. GPT-4 avrebbe circa [1.8 trillion parameters](https://en.wikipedia.org/wiki/GPT-4). Più parametri in genere significa più capacità, ma anche più costo computazionale. La relazione non è lineare, e i ricercatori continuano a trovare modi per ottenere più prestazioni con meno parametri. **La finestra di contesto** indica quanti token il modello può considerare in una volta sola, includendo sia il tuo input sia il suo output. I modelli più vecchi avevano finestre piccole, magari qualche migliaio di token. I modelli moderni come [Llama 4 Scout](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) supportano fino a 10 milioni di token, abbastanza per elaborare libri interi o intere basi di codice in una singola conversazione. Finestre di contesto più grandi significano che il modello può mantenere conversazioni coerenti su scambi più lunghi e analizzare documenti più estesi. ## Addestramento: da dove arriva la conoscenza Gli LLM imparano dal testo. Enormi quantità di testo. Il processo di addestramento funziona mostrando al modello miliardi di esempi e chiedendogli di prevedere cosa viene dopo. Quando sbaglia previsione, il modello regola leggermente i suoi parametri. Ripeti questo processo su migliaia di miliardi di token di dati di addestramento, usando cluster di calcolo che costano decine di milioni di dollari da far funzionare, e il modello sviluppa gradualmente la capacità di prevedere continuazioni per praticamente qualsiasi testo tu possa dargli. I dati di addestramento includono in genere libri, siti web, articoli accademici, repository di codice, forum e altri testi disponibili pubblicamente. La composizione esatta conta. I modelli addestrati su più codice scrivono meglio il codice. I modelli addestrati su dati più recenti hanno conoscenza più aggiornata. I modelli addestrati su dati più diversificati gestiscono una gamma più ampia di richieste. Dopo questa fase iniziale di "pre-training", la maggior parte dei modelli commerciali passa attraverso fasi di addestramento aggiuntive. Il fine-tuning su esempi curati insegna al modello a seguire istruzioni e a evitare output dannosi. Il reinforcement learning da feedback umano aiuta il modello a produrre risposte che gli esseri umani valutano come utili e appropriate. Questi passaggi aggiuntivi modellano la personalità e le capacità del modello oltre la previsione pura. ## Cosa ci dicono i limiti Le limitazioni degli LLM rivelano cosa sono davvero. Allucinano. Generano informazioni false con sicurezza perfetta. Un avvocato ha notoriamente presentato una memoria legale scritta da ChatGPT che citava sentenze che non esistevano. Il modello aveva previsto nomi di casi e citazioni dal suono plausibile perché è ciò che in genere contengono le memorie legali, ma stava inventando. Perché succede? Perché il modello sta prevedendo schemi, non accedendo a un database di fatti verificati. Quando i dati di addestramento hanno lacune o quando il prompt crea condizioni insolite, il modello riempie i vuoti con ciò che sembra statisticamente probabile. Non ha alcun meccanismo per sapere se le sue previsioni corrispondono alla realtà. Come ha osservato l'utente Leftium in una [discussione su Hacker News](https://news.ycombinator.com/item?id=40393704) su come spiegare gli LLM: "Autocomplete seems to be the simplest way of explaining it is just fancy pattern recognition." Il riconoscimento di schemi fallisce quando lo schema richiede conoscenza reale del mondo invece della conoscenza di come appare il testo. Non possono verificare. Un LLM non può controllare se le sue affermazioni sono vere perché non ha accesso alla realtà esterna oltre ciò che era nei suoi dati di addestramento. Non può cercare qualcosa. Non può chiamare un'API per confermare un fatto. Può solo prevedere quali parole di solito seguono altre parole. Sono incoerenti. Fai la stessa domanda due volte, ottieni risposte diverse. Non è un bug. La casualità viene introdotta deliberatamente per evitare output noiosamente prevedibili. Ma questo significa che non puoi fare affidamento su un LLM perché dia la stessa risposta due volte, e questo complica qualsiasi flusso di lavoro in cui la coerenza conta. Hanno date limite della conoscenza. La maggior parte dei modelli è addestrata su dati fino a una certa data. Qualsiasi cosa successiva a quella data è sconosciuta, a meno che tu non la fornisca esplicitamente o che il modello abbia capacità di ricerca sul web. I modelli GPT-5.2 hanno una data limite ad agosto 2025, [secondo OpenAI](https://openai.com/index/introducing-gpt-5-2/). Gli eventi successivi a quella data, per il modello, semplicemente non esistono. Fanno fatica con matematica e logica. Può sembrare controintuitivo, vista la quantità di capacità che mostrano altrove, ma segue direttamente dal meccanismo di previsione. La matematica richiede calcolo preciso, e gli LLM sono ottimizzati per continuazioni plausibili piuttosto che per computazioni accurate. Possono imitare ragionamenti matematici visti nei dati di addestramento, ma non stanno davvero calcolando. ## Un tipo diverso di intelligenza Andrej Karpathy, uno dei ricercatori che hanno contribuito a costruire gli LLM moderni in OpenAI e Tesla, ha offerto una prospettiva chiarificatrice [citata sul blog di Simon Willison](https://simonwillison.net/2024/Sep/14/andrej-karpathy/): "It's a bit sad and confusing that LLMs ('Large Language Models') have little to do with language; It's just historical. They are highly general purpose technology for statistical modeling of token streams. A better name would be Autoregressive Transformers or something. They don't care if the tokens happen to represent little text chunks. It could just as well be little image patches, audio chunks, action choices, molecules, or whatever." L'implicazione è profonda. Gli LLM non sono macchine del linguaggio. Sono macchine di schemi che funzionano estremamente bene sul linguaggio perché il linguaggio ha una struttura statistica ricca e apprendibile. Ma la stessa architettura può modellare qualsiasi dato sequenziale. Questo spiega perché gli LLM ora possono gestire immagini, audio e video insieme al testo. Il meccanismo sottostante è abbastanza astratto da applicarsi a qualsiasi dominio in cui esistano schemi e in cui prevedere cosa viene dopo abbia senso. ## Perché ti riguarda Se lavori in qualsiasi ambito che coinvolge scrittura, analisi, comunicazione o trattamento delle informazioni, gli LLM stanno già cambiando ciò che è possibile. Buttano giù bozze. Riassumono. Fanno brainstorming. Traducono. Spiegano. Scrivono codice. Analizzano documenti. Fanno queste cose in modo imperfetto, con avvertenze, richiedendo supervisione umana. Ma le fanno in fretta, e la velocità cambia i flussi di lavoro. Una prima bozza che richiedeva due ore ora richiede due minuti. Un riassunto di documento che richiedeva di leggere cinquanta pagine ora richiede leggere due paragrafi. Una sessione di brainstorming che produceva dieci idee ora ne produce cento, e anche se novanta sono mediocri, quelle dieci buone in più potrebbero includere qualcosa che non ti sarebbe mai venuto in mente. Il punto è capire con cosa stai lavorando. Un LLM non è un assistente competente che per caso è disponibile a tutte le ore. È un motore di previsione che genera testo plausibile. A volte quel testo plausibile è esattamente ciò che ti serve. A volte è sbagliato con sicurezza. Capire la differenza richiede comprendere il meccanismo. ## La tecnologia continua a muoversi Ciò che è vero a gennaio 2026 avrà un aspetto diverso a dicembre. I modelli stanno diventando più veloci. Stanno diventando più economici. Gestiscono input più lunghi. Allucinano meno, anche se continuano ad allucinare. Stanno sviluppando capacità di ragionamento migliori, con modalità dedicate di "thinking" che affrontano i problemi passo dopo passo invece di saltare subito alle risposte. Le capacità multimodali si stanno espandendo. I modelli più recenti di Google, OpenAI, Anthropic e Meta gestiscono immagini e audio in modo nativo. Modelli che un tempo elaboravano solo testo ora analizzano schermate, interpretano grafici e rispondono a input vocali. I fondamentali, però, restano stabili. Previsione. Schemi. Scala. I modelli non comprendono in senso umano. Approssimano la comprensione attraverso statistica applicata a una scala che produce risultati indistinguibili dalla comprensione genuina in molti contesti pratici. Se questa sia "davvero" intelligenza è una domanda filosofica. Se sia utile è una domanda empirica. Per la maggior parte dei compiti che coinvolgono linguaggio e testo, la risposta è sempre più sì. La domanda non è se usare questi strumenti. È come usarli in modo efficace, capendo cosa sono e cosa non sono, in modo che le parti impressionanti ti aiutino e i limiti non ti facciano inciampare. Questa è la vera competenza adesso. Non i trucchi di prompting o le tecniche segrete. Capire abbastanza bene la macchina da sapere quando fidarti e quando fare una doppia verifica.