--- title: Token e finestre di contesto: perché l'IA dimentica le cose description: Che cosa sono davvero i token, perché le finestre di contesto limitano la memoria dell'IA e perché il tuo assistente IA perde il filo delle conversazioni. Uno sguardo ai meccanismi dietro la dimenticanza dell'IA. date: February 5, 2026 author: Robert Soares category: ai-fundamentals --- Più o meno intorno al quindicesimo messaggio, l'assistente IA smette di riconoscere il tuo progetto. Glielo ricordi. Si scusa. Due messaggi dopo, se lo dimentica di nuovo. Non è un bug. È architettura. ## Le parole non sono ciò che l'IA legge Apri un libro. Tu vedi parole. Un modello di IA vede qualcosa di diverso: blocchi chiamati token. Un token può essere una parola completa, ma spesso non lo è. La parola "hamburger" si spezza in tre pezzi. "Ham." "Bur." "Ger." Ogni pezzo è un token separato che il modello elabora in modo indipendente, anche se il tuo cervello vede una parola sola. Questa suddivisione avviene attraverso un processo chiamato tokenizzazione, e modelli diversi usano approcci diversi. L'algoritmo specifico conta più di quanto la maggior parte delle persone immagini. Come ha osservato Simon Willison nella sua analisi dei tokenizer GPT: "Many of the quirks and limitations of LLMs can be traced back to details of the tokenizer used." Le parole comuni restano integre. Le parole rare vengono affettate. Gergo tecnico, nomi, testo non inglese? Tagliati a frammenti. Ed è qui che diventa interessante. La parola "Tokenization" si divide in due token: token 30,642 e token 1,634. L'IA non la vede come un'unità sola. Vede due pezzi che hanno imparato ad andare insieme durante l'addestramento, allo stesso modo in cui tu hai imparato che "ham," "bur" e "ger" compongono un panino. Contano anche le lingue. L'inglese si tokenizza in modo efficiente perché questi sistemi sono stati addestrati soprattutto su testo inglese. Spagnolo, cinese, arabo? Producono tutti più token per parola. La frase "Cómo estás" usa 5 token per soli 10 caratteri, il che significa che chi non parla inglese raggiunge i limiti più in fretta dicendo meno. ## La strana memoria del tokenizzatore I tokenizzatori ricordano cose dei loro dati di addestramento in modi strani. Willison ha notato una distorsione interessante: "The English bias is obvious here. ' man' gets a lower token ID of 582, because it's an English word." Gli ID di token più bassi in genere corrispondono a token più comuni. In pratica, il modello ha i suoi preferiti. Poi ci sono i token anomali. Durante l'addestramento del tokenizzatore, certi schemi apparivano così spesso da diventare token a sé, anche quando non avrebbero dovuto. Un esempio è " davidjl" (con lo spazio iniziale), che è diventato un token autonomo perché quel nome utente compariva centinaia di migliaia di volte nei dati di addestramento di GPT-2. Il vecchio tokenizzatore codificava "SolidGoldMagikarp" come token unico per incidenti statistici simili. Il nuovo tokenizzatore lo spezza in cinque: "Solid," "Gold," "Mag," "ik," "arp." Non sono solo curiosità. Mostrano che la tokenizzazione non è un livello di traduzione neutrale. Porta nelle tue conversazioni con l'IA le distorsioni e gli incidenti dei dati con cui è stata addestrata. ## Finestre di contesto: i muri invisibili Ogni modello di IA ha una finestra di contesto. È il numero massimo di token che può tenere insieme in una volta. I tuoi messaggi, le risposte dell'IA, eventuali documenti caricati, il prompt di sistema che gira in sottofondo: tutto deve stare dentro questa finestra. I numeri sono cresciuti in modo drastico. GPT-4 Turbo offre 128.000 token. Claude te ne dà 200.000. Gemini 2.5 Pro spinge fino a 1 milione. Llama 4 Scout di Meta dichiara 10 milioni. Un milione di token sembra infinito. Sono circa 750.000 parole. Diversi romanzi. Un intero codice sorgente. Quindi perché la tua IA dimentica quello che le hai detto venti minuti fa? ## Finestre più grandi, stessi problemi Su Hacker News, un utente chiamato jokethrowaway è andato al cuore del problema: "Context window size is not the limiting factor. How well will it be able to use that information is the problem." Avere spazio non è la stessa cosa che usarlo bene. Una ricerca di Stanford ha mostrato quello che hanno chiamato effetto "lost in the middle". I modelli di IA mostrano una curva di attenzione a U. Prestano molta attenzione alle informazioni all'inizio del contesto. Prestano molta attenzione alle informazioni alla fine. Il mezzo? Svanisce. Negli esperimenti, le prestazioni di GPT-3.5-Turbo sono scese di oltre il 20% quando le informazioni chiave erano messe al centro dell'input invece che all'inizio o alla fine. A volte il modello andava peggio che senza alcun contesto. Avere l'informazione e usarla sono due cose diverse. Non è un bug software che verrà corretto martedì prossimo. Nasce dal meccanismo di attenzione che fa funzionare i transformer, il processo matematico che permette al modello di capire quali parti dell'input sono collegate ad altre parti. Quel meccanismo favorisce naturalmente certe posizioni. L'architettura ha le sue preferenze su cosa conta. ## Il divario tra promesse e realtà Una ricerca di Chroma ha esaminato cosa succede quando i modelli si avvicinano ai limiti pubblicizzati. Il risultato: "most models break much earlier than advertised. A model claiming 200k tokens typically becomes unreliable around 130k, with sudden performance drops rather than gradual degradation." I modelli non sfumano con grazia. Funzionano, poi non funzionano più. Il precipizio è ripido. Nei forum sviluppatori di OpenAI, gli utenti hanno documentato questa esperienza più e più volte. Un utente chiamato rajeev.a.j.madari ha descritto la frustrazione: "ChatGPT struggles to remember the entirety of our chat. Most times, it appears as though the system only acknowledges my most recent input, causing confusion." Un altro utente, Joel_Barger, ha notato conseguenze pratiche: "In a coding situation context is important. It'll lose or change the name of namespaces or class methods arbitrarily." Non sono casi limite. È l'esperienza normale delle conversazioni lunghe con i modelli di IA. ## Il calcolo scala, i soldi si bruciano Rendere più grandi le finestre di contesto costa. Un utente chiamato gdiamos ha spiegato l'economia su Hacker News: "the compute still scales at best linearly with the input size. So a context size of 100k requires 100x more compute than a prompt size of 1k." Ma in realtà è peggio del lineare. Il meccanismo di attenzione scala quadraticamente con la lunghezza della sequenza. Raddoppia il contesto, quadruplica il calcolo. Ecco perché le finestre di contesto più lunghe costano di più per token. Ecco perché i piani gratuiti hanno limiti più stretti. Ecco perché anche il tuo piano enterprise, alla fine, ti blocca. Varie tecniche attenuano il problema. Schemi di attenzione sparsa saltano collegamenti tra token lontani. Approcci a finestra scorrevole elaborano blocchi separatamente. Innovazioni architetturali comprimono il contesto più vecchio in riassunti. Ma ogni soluzione scambia qualcosa: velocità, accuratezza o capacità di collegare idee a lunga distanza. ## Perché le funzioni di "memoria" non risolvono il problema I moderni assistenti IA pubblicizzano funzioni di memoria. ChatGPT ricorderà che preferisci risposte concise. Claude può salvare fatti sui tuoi progetti tra una conversazione e l'altra. Non è la stessa cosa del contesto. Questi sistemi di memoria archiviano fatti specifici in un database separato. Quando inizi una nuova conversazione, l'IA recupera i ricordi pertinenti e li inserisce nella finestra di contesto. È recupero, non vero ricordare. La differenza conta perché il recupero è selettivo. Il sistema indovina quali fatti archiviati contano in questa conversazione. A volte sbaglia. E anche quando indovina giusto, quei ricordi recuperati competono comunque per spazio nella stessa finestra di contesto limitata insieme a tutto il resto. Come ha notato segmondy su Hacker News: "infinite context window is not AGI enough, memory is not substitute for planning and reasoning." Conservare fatti non è la stessa cosa che capirli. Ricordare che hai citato una scadenza martedì scorso non è la stessa cosa che seguire come quella scadenza interagisce con gli altri tre vincoli che hai citato questo martedì. ## La posizione è strategia Se capisci come funzionano le finestre di contesto, puoi lavorarci insieme invece di combatterle. Metti prima le informazioni critiche. Il modello presta attenzione all'inizio. Non scaldarti con retroscena e non tenere i vincoli importanti per il sesto paragrafo. Parti da ciò che conta. Ripetiti in modo strategico. Se qualcosa era cruciale al messaggio tre e ora sei al messaggio trenta, dillo di nuovo. Il modello non si offenderà. Probabilmente non se lo ricorda comunque. Tieni le conversazioni focalizzate. Una finestra di contesto condivisa tra quindici argomenti diversi è peggiore di tre conversazioni separate su cinque argomenti ciascuna. La specificità batte la dispersione. Riassumi periodicamente. Quando una conversazione diventa lunga, chiedi all'IA di riassumere i punti chiave, poi avvia una nuova conversazione con quel riassunto come primo messaggio. Perdi sfumature ma guadagni chiarezza. ## Uno strano futuro Le finestre di contesto continuano a crescere. La comunità di ricerca continua a trovare modi per spingere i limiti. In pochi anni siamo passati da 4.000 token a 10 milioni. Questa traiettoria sembra destinata a continuare. Ma più grande non è la stessa cosa di migliore, e le sfide fondamentali restano architetturali. fsndz ha osservato su Hacker News: "Context windows are becoming larger and larger, and I anticipate more research focusing on this trend." La ricerca esiste perché il problema esiste. C'è qualcosa di quasi poetico nel costruire sistemi che dimenticano. Anche la memoria umana è imperfetta. Perdiamo il centro delle lezioni. Ricordiamo inizi e finali. Ricostruiamo invece di ricordare. L'IA non imita la memoria umana per progetto. Arriva a limiti simili attraverso meccanismi completamente diversi. Architetture diverse, stesso risultato: le cose si perdono. Racconti all'IA del tuo progetto. Ti risponde in modo utile. Continui la conversazione. Più o meno intorno al quindicesimo messaggio, noti che quella risposta utile è deragliata. L'IA continua a rispondere. Continua a essere sicura di sé. Ha semplicemente dimenticato di cosa stessi davvero parlando. Non è malizia. È matematica. E finché la matematica non cambia, ogni conversazione con un'IA porta con sé un conto alla rovescia invisibile.