L’avvocato si è fidato di ChatGPT. Gli ha dato sei citazioni di sentenze. Le ha presentate alla corte federale. Nessuna delle sentenze esisteva.
È successo a maggio 2023 e ha fatto notizia in tutto il mondo. Il giudice ha sanzionato gli avvocati coinvolti. La professione ha vissuto un momento di panico collettivo. Ma ecco la parte strana: l’IA ha fatto esattamente ciò per cui è stata progettata.
Sicura di sé e sbagliata
Un’allucinazione dell’IA è quando un modello linguistico genera informazioni che suonano del tutto plausibili ma in realtà sono false. A volte leggermente false. A volte completamente inventate.
Il termine stesso è preso in prestito dalla psicologia. Gli esseri umani allucinano quando il cervello percepisce cose che non ci sono. Le allucinazioni dell’IA funzionano in modo simile, con la differenza che il modello produce testo senza alcun ancoraggio alla realtà e lo presenta con sicurezza incrollabile.
Un utente di Hacker News chiamato diputsmonro l’ha riassunto perfettamente: “All responses are hallucinations. Some hallucinations happen to overlap the truth.”
Sembra provocatorio. Ed è anche tecnicamente accurato. Ogni output di un modello linguistico è una previsione su quali parole dovrebbero arrivare dopo. Alcune previsioni coincidono con i fatti. Altre no. Il modello, da solo, non sa distinguerle.
L’architettura spiega tutto
I modelli linguistici non memorizzano i fatti come un database memorizza i record. Imparano schemi statistici. Imparano che certe parole tendono a seguire altre parole in certi contesti. Imparano che alle domande sulla storia seguono spesso date. Imparano che le citazioni includono nomi di autori, titoli di riviste e anni tra parentesi.
Quando chiedi a un LLM una citazione, lui la genera. Produce testo che rispetta lo schema di come appare una citazione, in base a milioni di esempi assorbiti durante l’addestramento. Che quella citazione corrisponda davvero a un articolo esistente nel mondo fisico è una domanda a cui il modello non ha alcun meccanismo per rispondere.
Non è un bug software. È l’architettura fondamentale.
Un commentatore chiamato zdragnar ha spiegato il problema centrale su Hacker News: “the model itself doesn’t know the difference, and will proclaim bullshit with the same level of confidence.”
Quella sicurezza è letale. Gli esseri umani calibrano la fiducia in base a quanto qualcuno sembra certo. Ci siamo evoluti in un ambiente in cui le affermazioni sicure arrivavano di solito da persone che avevano conoscenza diretta. Un’IA addestrata a massimizzare il coinvolgimento dell’utente impara a sembrare sicura perché la sicurezza viene premiata.
Perché l’addestramento peggiora il problema
Ecco qualcosa di controintuitivo. Il modo in cui addestriamo i modelli linguistici incoraggia attivamente le allucinazioni.
L’addestramento consiste nel mostrare al modello milioni di esempi e premiarlo quando le sue previsioni corrispondono a ciò che veniva davvero dopo nei dati di addestramento. Il modello guadagna punti quando ha ragione. Ottiene zero punti quando dice “non lo so”. Come uno studente che capisce che lasciare in bianco una domanda del test garantisce il fallimento, il modello impara che indovinare batte ammettere l’incertezza.
Una ricerca di Lilian Weng in OpenAI osserva che i modelli apprendono nuove informazioni durante il fine-tuning più lentamente rispetto alle informazioni che coincidono con la conoscenza già esistente. Peggio ancora, una volta che i modelli imparano davvero fatti nuovi durante il fine-tuning, “they increase the model’s tendency to hallucinate.”
Il modello diventa più bravo a produrre testo che sembra contenere fatti. Non diventa più bravo a distinguere i fatti reali dagli schemi plausibili.
C’è anche un problema di dati. Il testo di Internet è la fonte di addestramento più comune. Come ha scritto un’analisi tecnica: “Data crawled from the public Internet is the most common choice and thus out-of-date, missing, or incorrect information is expected.” Il modello tratta in modo identico testo accurato e testo inaccurato. Entrambi sono solo schemi da imparare.
Il problema del silenzio sociale
Le conversazioni umane hanno una proprietà interessante. Quando le persone non sanno qualcosa, di solito stanno zitte. Le sezioni commenti e i forum contengono soprattutto affermazioni sicure. Nessuno pubblica “non ne ho idea su questo argomento”. Il silenzio non contiene testo da cui imparare.
Un utente di Hacker News chiamato mike_hearn ha individuato questo schema: “The trouble is that the training sets contain few examples of people expressing uncertainty because the social convention on the internet is that if you don’t know the answer, you don’t post.”
I modelli imparano dal testo che esiste. Il testo che non esiste non insegna nulla. Il corpus è sbilanciato verso la sicurezza e lontano dall’incertezza appropriata. Il modello eredita quello sbilanciamento.
Il problema del confine
Una persona conosce il confine tra memoria e immaginazione. Puoi ricordare dove hai parcheggiato l’auto riconoscendo allo stesso tempo che stai immaginando cosa potrebbe esserci nel vano portaoggetti. Sono sensazioni diverse.
I modelli linguistici non hanno un confine del genere.
Mort96 lo ha espresso così su Hacker News: “The distinction between ‘this is information I truly think I know’ and ‘this is something I made up’ doesn’t exist in LLMs.”
Tutto ciò che il modello produce passa dallo stesso processo. Recitare fatti consolidati significa prevedere token. Inventare assurdità plausibili significa prevedere token. Stesso meccanismo. Stesso livello di sicurezza. Nessun segnale interno che distingua l’uno dall’altro.
Ecco perché le allucinazioni sono così pericolose nella pratica. Non c’è un indizio. Nessuna esitazione. Nessun marcatore sottile che separi un output affidabile da una fabbricazione.
Perché risolvere il problema è difficile
Alcuni problemi dell’IA sono sfide ingegneristiche. Ci butti più calcolo, affini il processo di addestramento e arrivano miglioramenti. Le allucinazioni sono diverse.
Diversi ricercatori hanno esaminato se le allucinazioni possano essere eliminate dalle architetture attuali. Il consenso emergente è sobrio. Un commentatore di nome calf ha suggerito che il problema potrebbe essere “formally unsolvable and should be rendered as absurd as someone claiming the Halting Problem is solvable.”
Sembra estremo. L’argomento tecnico è più o meno questo: i modelli linguistici sono approssimatori statistici. Non possono catturare completamente tutte le funzioni computabili. Interpoleranno sempre tra esempi di addestramento invece di accedere alla verità di base. Alcune interpolazioni sbagliate sono inevitabili.
I modelli migliori allucinano meno spesso. Non allucinano lo zero per cento delle volte. La curva si avvicina allo zero senza raggiungerlo mai.
Esistono strategie di mitigazione. La generazione aumentata dal recupero dà ai modelli accesso a documenti esterni, il che aiuta ad ancorare le risposte a fonti reali. Il prompting a catena di pensiero costringe i modelli a mostrare il loro ragionamento, e a volte intercetta gli errori prima che si accumulino. La verifica umana resta il rilevatore più affidabile.
Ma sono soluzioni di ripiego. Riduccono il tasso senza eliminare il fenomeno. Il limite architetturale rimane.
Le implicazioni di cui non parla nessuno
La maggior parte delle discussioni sulle allucinazioni finisce con consigli pratici. Controlla le fonti. Verifica le citazioni. Non fidarti alla cieca. È un consiglio corretto, ma manca anche qualcosa di più profondo.
Stiamo costruendo infrastrutture sopra sistemi che hanno un tasso non nullo di fabbricazioni sicure di sé. Non sistemi che a volte sono incerti. Sistemi sempre sicuri e a volte sbagliati in modi indistinguibili da quando hanno ragione.
Ogni settore che automatizza con gli LLM sta implicitamente accettando questo. Ricerca legale. Triage medico. Analisi finanziaria. Assistenza clienti. Generazione di codice. I guadagni di efficienza sono reali. Anche il tasso di allucinazione incorporato lo è.
Elcritch, commentando la generazione di codice con LLM, ha osservato che “LLMs will just outright lie to make their jobs easier in one section while in another area generate high quality code.” Lo stesso modello, lo stesso prompt, affidabilità incoerente. Non perché qualcosa sia andato storto. Perché è così che funziona il sistema.
Cosa ci insegnano le allucinazioni
Le allucinazioni rivelano qualcosa sulla natura del linguaggio che gli esseri umani affrontano di rado.
Una frase può essere grammaticalmente perfetta, semanticamente coerente, stilisticamente appropriata e completamente falsa. Le strutture del linguaggio non richiedono verità. Una prosa persuasiva non deve per forza corrispondere alla realtà. L’autorevolezza nel testo è una messa in scena, non una garanzia.
Gli esseri umani usano il contesto per individuare l’inganno. Conosciamo chi parla. Conosciamo il suo storico. Sappiamo quali incentivi potrebbero spingerlo a fuorviare. Applichiamo uno scetticismo calibrato alla situazione.
Gli output dell’IA arrivano senza quel contesto. Nessuno storico su questa query specifica. Nessun incentivo che possiamo modellare. Nessuna storia relazionale. Solo testo che suona esattamente come quello prodotto da un esperto che ha controllato i fatti.
Il peso ricade interamente sul lettore. Ogni affermazione diventa sospetta finché non viene verificata in modo indipendente. Ogni citazione va controllata. Ogni statistica ha bisogno di una fonte. L’efficienza della generazione con IA viene in parte consumata dal carico della verifica.
L’equilibrio scomodo
I modelli continueranno a migliorare. I tassi di allucinazione continueranno a scendere. Addestramenti più sofisticati penalizzeranno l’eccesso di sicurezza. Architetture migliori potrebbero integrare, prima o poi, qualcosa di simile alla quantificazione dell’incertezza.
Ma la dinamica fondamentale resta. Questi sistemi prevedono schemi. Gli schemi non equivalgono alla verità. Alcune previsioni cadranno sempre fuori dai confini dei fatti.
Forse la vera lezione non riguarda affatto l’IA.
Gli esseri umani hanno sempre operato in ambienti dove affermazioni sicure a volte si rivelano false. Abbiamo sviluppato istituzioni per gestirlo: peer review, supervisione editoriale, discovery legale, replicazione scientifica. Fidati ma verifica. Considera la fonte. Controlla l’originale.
Le allucinazioni dell’IA non introducono un nuovo problema. Ne amplificano uno vecchio. Producono affermazioni plausibili a un volume e a una velocità che travolgono i nostri processi di verifica tradizionali.
L’avvocato che ha presentato citazioni false non ha fallito perché ha usato l’IA. Ha fallito perché si è fidato senza verificare. Quel fallimento era possibile anche prima che esistesse ChatGPT. Solo che era più lento da commettere.
La verità scomoda è che le allucinazioni ci costringono a ricordare qualcosa che siamo riusciti a dimenticare: che la scioltezza non è accuratezza, che la sicurezza non è correttezza e che il rapporto tra parole e verità è sempre stato più fragile di quanto ci piaccia ammettere.
Ogni frase che hai letto, inclusa questa, potrebbe essere sbagliata.
La domanda non è mai stata se fidarsi. È sempre stata come verificare.