Otto ricercatori di Google pubblicarono un articolo nel giugno 2017. Il titolo era giocoso, una citazione dei Beatles: “Attention Is All You Need.” L’articolo era lungo 15 pagine. Descriveva un’architettura chiamata transformer.
Quell’articolo ha spalancato l’IA.
Il vecchio mondo: le reti neurali ricorrenti
Prima dei transformer, i modelli linguistici elaboravano il testo in sequenza, che è un modo elegante per dire che leggevano una parola alla volta, da sinistra a destra, esattamente come fanno gli esseri umani quando leggono ad alta voce ai bambini.
Questa architettura aveva un nome. Reti neurali ricorrenti. RNN.
Il problema nel leggere una parola alla volta è che dimentichi ciò che è venuto prima, e l’architettura delle RNN peggiorava questo problema perché faticavano a mantenere informazioni su sequenze lunghe. Alla parola cinquanta, la parola tre era quasi scomparsa dalla memoria di lavoro del modello, svanita in rumore numerico che corrompeva i calcoli a valle.
Una variante chiamata reti Long Short-Term Memory, o LSTM, migliorò la situazione nel 1997. Aggiunse dei gate: meccanismi capaci di decidere cosa ricordare e cosa dimenticare. Le LSTM funzionavano meglio. Diventarono lo standard.
Ma le LSTM avevano un problema proprio. L’elaborazione sequenziale. Per gestire la parola dieci, serviva il risultato della parola nove, che aveva bisogno della parola otto, che aveva bisogno della parola sette. Niente scorciatoie. Niente parallelismo. L’addestramento arrancava perché le GPU restavano inattive, in attesa che i calcoli precedenti finissero prima di avviare i successivi.
Come ha osservato un commentatore di Hacker News in una discussione del 2020 sull’articolo originale: “It’s clearly important but I found that paper hard to follow.” Il settore era pronto per qualcosa di più semplice. Qualcosa di più veloce. Qualcosa che potesse davvero scalare.
L’intuizione chiave: guardare tutto in una volta
L’innovazione centrale del transformer è stata abbandonare del tutto la sequenza.
Invece di elaborare le parole una per una, i transformer guardano tutte le parole simultaneamente. Invece di ricordare cosa è venuto prima, calcolano in tempo reale le relazioni tra ogni parola e tutte le altre parole. Ogni singola volta.
Sembra costoso dal punto di vista computazionale. Lo è. Ma si parallelizza alla perfezione. Ogni confronto parola-parola può avvenire nello stesso momento su nuclei GPU diversi. Addestramenti che con le RNN richiedevano settimane con i transformer richiedevano giorni.
Il meccanismo che rende possibile tutto questo si chiama attenzione. Più precisamente, self-attention.
Self-attention: il meccanismo centrale
Ecco una frase: “Il cane non ha attraversato la strada perché lui era troppo stanco.”
A chi si riferisce “lui”? Al cane. Ovviamente. Gli esseri umani lo risolvono all’istante. Non ci pensiamo in modo cosciente. Lo sappiamo e basta.
Ma come farebbe una macchina a capirlo?
La self-attention calcola un punteggio tra ogni coppia di parole. Quando elabora “lui”, il modello calcola quanta attenzione “lui” debba dare a ogni altra parola: “il,” “cane,” “non,” “ha,” “attraversato,” “la,” “strada,” “perché,” “era,” “troppo,” “stanco.” La parola “cane” ottiene un punteggio di attenzione alto. La parola “strada” ne ottiene uno basso.
Questo accade per ogni parola simultaneamente. Il modello costruisce una rappresentazione pesata in cui ogni parola incorpora informazioni da tutte le altre parole a cui dovrebbe prestare attenzione. La distanza non conta. “Cane” può stare a tre parole di distanza o a trenta. Il meccanismo di attenzione la trova in entrambi i casi.
Jay Alammar, il cui Illustrated Transformer è diventato lettura obbligatoria per chiunque studiasse questo materiale, l’ha spiegato in modo semplice: “Self-attention is the method the Transformer uses to bake the ‘understanding’ of other relevant words into the one we’re currently processing.”
Prospettive multiple: l’attenzione a più teste
Un meccanismo di attenzione cattura un tipo di relazione. Ma nel linguaggio ci sono molti tipi di relazioni che avvengono simultaneamente. Relazioni grammaticali. Relazioni semantiche. Relazioni referenziali. Relazioni temporali.
Il transformer usa più “teste” di attenzione in parallelo. Ogni testa impara a concentrarsi su schemi diversi. Una potrebbe tracciare l’accordo soggetto-verbo. Un’altra potrebbe seguire i riferimenti pronominali. Un’altra ancora potrebbe catturare la somiglianza semantica.
Alammar spiega il vantaggio: “It expands the model’s ability to focus on different positions” e “It gives the attention layer multiple ‘representation subspaces.’”
I risultati di tutte le teste vengono combinati. Il modello vede la frase da più angolazioni contemporaneamente, integrando diversi tipi di informazione linguistica in una singola rappresentazione ricca che cattura più di quanto qualsiasi singolo meccanismo di attenzione potrebbe fare da solo.
Posizione senza sequenza
Qui c’è un problema sottile. Se elabori tutte le parole simultaneamente, come fai a conoscerne l’ordine? “Il cane morde l’uomo” significa qualcosa di diverso da “L’uomo morde il cane.”
I transformer risolvono questo problema aggiungendo codifiche posizionali. Prima dell’elaborazione, ogni parola riceve informazioni sulla propria posizione iniettate nella sua rappresentazione. Il modello impara a usare queste informazioni posizionali. L’ordine delle parole viene preservato senza elaborazione sequenziale.
Questa è stata una delle decisioni ingegneristiche intelligenti che hanno fatto funzionare l’intera architettura.
Perché ha funzionato davvero
I revisori originali di NeurIPS 2017 videro qualcosa di speciale. Un revisore scrisse: “This work introduces a quite strikingly different approach to the problem of sequence-to-sequence modeling.” Un altro riconobbe che “the combination of them and the details necessary for getting it to work as well as LSTMs is a major achievement.”
I risultati parlavano forte. Sul benchmark di traduzione WMT 2014 inglese-tedesco, il transformer raggiunse 28.4 BLEU, superando lo stato dell’arte esistente di oltre 2 punti. Su inglese-francese arrivò a 41.8 BLEU. Stato dell’arte. Di nuovo.
E si addestrava più in fretta. Molto più in fretta. La parallelizzabilità ottenuta abbandonando l’elaborazione sequenziale significava che potevi mettere più hardware sul problema e ottenere davvero accelerazioni proporzionali.
Ma l’impatto reale non furono i benchmark. Fu ciò che accadde dopo.
La generalità inattesa
Il transformer era stato progettato per la traduzione. Lingua in ingresso, lingua in uscita. Nessuno si aspettava che funzionasse per tutto il resto.
Ha funzionato.
Nel 2020, i ricercatori adattarono i transformer alle immagini. Il Vision Transformer, o ViT, tratta un’immagine come una sequenza di porzioni e le elabora con l’attenzione. Eguagliò o superò le reti neurali convoluzionali che avevano dominato la visione artificiale per quasi un decennio.
Audio. Ripiegamento proteico. Robotica. Apprendimento per rinforzo. Gioco. Generazione di codice. Un’unica architettura continuava a comparire ovunque.
Come ha osservato un utente di Hacker News durante una retrospettiva del 2020: “It’s crazy to me to see what still feel like new developments (come on, it was just 2017!) making their way into mainstream.”
Un altro utente ha colto qualcosa di più profondo su ciò che rendeva diversi i transformer: “The successful removal of inductive bias is really what differentiates this from previous sequence-to-sequence neural networks.”
Quella rimozione del bias induttivo si è rivelata l’arma segreta dei transformer. Le RNN assumevano che la sequenza contasse in un modo specifico. Le reti convoluzionali assumevano che gli schemi locali contassero in un modo specifico. I transformer non assumevano quasi nulla. Imparavano tutto dai dati.
Questo li rendeva flessibili. Questo li rendeva scalabili.
Il percorso verso tutto
L’articolo sui transformer non ha creato ChatGPT. Ha creato le fondamenta.
BERT è arrivato nel 2018. L’encoder bidirezionale di Google usava i transformer per comprendere il contesto linguistico in entrambe le direzioni. Ha dominato i benchmark di comprensione del linguaggio naturale.
GPT è arrivato nel 2018 da OpenAI. Generative Pre-trained Transformer. Il nome conteneva “transformer” direttamente nell’acronimo. GPT-2 è arrivato nel 2019. GPT-3 nel 2020 è scalato fino a 175 miliardi di parametri e ha mostrato capacità che nessuno si aspettava dalla sola scala.
Claude. Gemini. Llama. Ogni grande modello linguistico di oggi è un transformer o un suo derivato stretto.
L’architettura nata come miglioramento della traduzione è diventata il substrato della ricerca sull’intelligenza artificiale generale.
Costi e limiti
I transformer non sono gratis. La self-attention confronta ogni parola con ogni altra parola. Con N parole, sono confronti N al quadrato. Raddoppia la lunghezza del contesto, quadruplica il calcolo.
Questo crea limiti rigidi. I primi transformer gestivano qualche migliaio di token. I modelli moderni spingono su centinaia di migliaia, ma ogni estensione richiede trucchi ingegneristici: attenzione sparsa, finestre scorrevoli, meccanismi di memoria. Il costo quadratico non sparisce mai. Viene solo gestito.
Un commentatore di Hacker News lo ha detto senza giri di parole: “The amount of computation for processing a sequence size N with a vanilla transformer is still N^2.”
Sono aumentati anche i costi di addestramento. Addestrare GPT-4 sarebbe costato oltre 100 milioni di dollari. Solo una manciata di organizzazioni può permettersi lo sviluppo di modelli di frontiera. L’architettura che democratizzava ha creato un settore che centralizza.
Cosa viene dopo
Nel 2025, i ricercatori cercavano attivamente alternative. I modelli a spazio di stato come Mamba promettevano scalabilità lineare invece che quadratica. Le architetture mixture of experts, usate secondo quanto riportato in GPT-4, attivano solo parti del modello per ogni input.
Uno degli autori originali di “Attention Is All You Need,” Llion Jones, è intervenuto pubblicamente all’inizio del 2025: “I’m going to drastically reduce the amount of time that I spend on transformers…I’m explicitly now exploring and looking for the next big thing.”
Ma i transformer restano dominanti. Qualsiasi sostituto deve eguagliare le loro capacità risolvendo allo stesso tempo i loro limiti. Nessuno ci è ancora riuscito.
L’articolo, col senno di poi
Otto autori hanno scritto “Attention Is All You Need.” Lavoravano in Google Brain e Google Research. Il titolo era una battuta sui Beatles. Il contenuto era serio.
Cosa ha reso quell’articolo così importante?
Semplicità. Eliminare ricorrenza e convoluzione ha lasciato un’architettura più pulita. Le architetture più semplici scalano meglio. Le architetture più semplici si trasferiscono meglio. Le architetture più semplici durano più a lungo.
Parallelizzabilità. Le GPU esistevano. I grandi set di dati esistevano. L’infrastruttura per usare i transformer su larga scala stava emergendo proprio mentre l’architettura arrivava.
Generalità. La stessa architettura ha funzionato per la traduzione, poi per la modellazione del linguaggio, poi per le immagini, poi per l’audio, poi per il video, poi per il ripiegamento proteico. Un’architettura per dominarle tutte non era il piano. È stato il risultato.
Tempismo. Il 2017 era abbastanza tardi perché la potenza di calcolo rendesse pratici i transformer e abbastanza presto perché tutte le implicazioni richiedessero anni per dispiegarsi.
Perché capirlo conta
Non serve capire i punteggi di attenzione per usare Claude o GPT. Ma capire l’architettura di base ti aiuta a capire perché questi sistemi si comportano nel modo in cui si comportano.
I transformer sono macchine di schemi. Eccellono nel trovare e generare schemi nei dati. Non sono motori di ragionamento, anche se simulano il ragionamento attraverso un abbinamento di schemi sofisticato.
Il contesto conta perché i transformer vedono simultaneamente tutto il contesto che fornisci. Più contesto di solito significa risultati migliori. Un contesto incoerente confonde il riconoscimento degli schemi.
I limiti esistono perché la scalabilità quadratica è spietata. I documenti lunghi sbattono contro muri. Le catene di ragionamento complesse si rompono. L’architettura ha vincoli reali.
E ogni grande modello usa la stessa base. GPT e Claude e Gemini sembrano diversi da fuori. Dentro, sono tutti transformer. Capire una sola architettura ti aiuta a capirli tutti.
Gli otto ricercatori che hanno pubblicato “Attention Is All You Need” nel 2017 non potevano prevedere dove sarebbe arrivata la loro architettura. Modelli linguistici che conversano. Generatori di immagini che sognano. Assistenti di codice che programmano. Nulla di tutto questo era nell’articolo originale. Tutto questo è arrivato dai transformer.
Gli articoli di informatica più importanti non si annunciano come tali. Descrivono una tecnica. Riportano alcuni benchmark. Vengono pubblicati.
Poi cambiano tutto.