Attention Is All You Need — il paper che ha creato i transformer

Chi è: Ashish Vaswani, Noam Shazeer e altri 6 ricercatori Google Brain / Google Research. Paper di 14 pagine presentato a NeurIPS 2017. Con oltre 100.000 citazioni è il paper più influente nella storia del deep learning. Quasi tutti gli autori hanno poi fondato startup (Cohere, Character.AI, Adept) o sono diventati figure chiave nel campo.

Il problema che i transformer hanno risolto

Prima del 2017, il Natural Language Processing utilizzava architetture ricorrenti come standard industriale: LSTM (Long Short-Term Memory) e GRU (Gated Recurrent Units) erano considerati il non plus ultra per qualsiasi task che coinvolgesse sequenze di testo. Il limite fondamentale di queste architetture era strutturale, non accidentale: il processamento avveniva in modo strettamente sequenziale, token dopo token.

Considerate una frase come "Il gatto sedette sul tappeto perché era stanco." Per capire che il pronome "era" si riferisce al gatto e non al tappeto, una rete ricorrente doveva mantenere il contesto attivo per tutta la lunghezza della sequenza, propagando un vettore di stato nascosto attraverso ogni token intermedio. Su sequenze brevi funzionava discretamente. Su sequenze lunghe emergevano due problemi devastanti.

Il primo problema era il vanishing gradient: durante il backpropagation, il segnale di errore si attenuava esponenzialmente man mano che risaliva i passi temporali. Il modello faticava a imparare dipendenze a lungo raggio — quelle esattamente più importanti per capire il linguaggio naturale. Il secondo problema, forse ancora più critico dal punto di vista pratico, era l'impossibilità di parallelizzare il calcolo su GPU. Le GPU sono progettate per operazioni massicciamente parallele su migliaia di core. Un'architettura che forza il processamento sequenziale non può sfruttare questa potenza. Addestrare modelli grandi richiedeva settimane.

Un transformer processa tutti i token contemporaneamente, in parallelo. Non c'è sequenzialità obbligatoria. Ogni token può, in un singolo passaggio, guardare direttamente qualsiasi altro token nella sequenza, indipendentemente dalla distanza. Questo non è solo un miglioramento di efficienza: è un cambiamento qualitativo nel tipo di relazioni che il modello può imparare.

Il meccanismo di self-attention

Il cuore matematico del paper è il meccanismo di self-attention. L'intuizione è questa: ogni token deve poter "guardare" tutti gli altri token nella sequenza e decidere autonomamente quanto ognuno è rilevante per la propria rappresentazione. Il modello impara da solo quali relazioni sono importanti, senza che nessuno le programmi a mano.

Tecnicamente, per ogni token vengono calcolati tre vettori attraverso moltiplicazioni matriciali learnable:

Query (Q): rappresenta "cosa sta cercando" il token corrente.
Key (K): rappresenta "cosa offre" ogni token agli altri.
Value (V): rappresenta il contenuto informativo effettivo del token.

Il processo di attenzione: si prende la Query del token corrente e la si confronta (prodotto scalare) con le Key di tutti gli altri token. I prodotti scalari vengono normalizzati con una funzione softmax per ottenere pesi di attenzione che sommano a 1. Questi pesi vengono usati per sommare pesatamente i Value, producendo la rappresentazione finale del token nel contesto.

Il risultato è straordinario: il modello impara autonomamente le relazioni linguistiche rilevanti — coreference pronominale, dipendenze soggetto-verbo, relazioni semantiche a lunga distanza — semplicemente ottimizzando l'obiettivo di predire il token successivo. Non c'è nessuna regola grammaticale codificata manualmente. L'attenzione emerge dall'ottimizzazione.

Multi-head attention e positional encoding

Un singolo meccanismo di attenzione cattura un solo tipo di relazione alla volta. Il paper introduce la multi-head attention: invece di fare attenzione una volta sola, il modello esegue 8 o 16 attenzioni parallele ("teste"), ognuna con matrici Q, K, V diverse e quindi addestrata a catturare aspetti diversi delle relazioni linguistiche. Una testa potrebbe specializzarsi nelle relazioni grammaticali soggetto-verbo, un'altra nella coreference, un'altra nelle relazioni semantiche di campo lessicale. Le rappresentazioni prodotte da tutte le teste vengono concatenate e riproiettate in un vettore unico.

Rimane però un problema fondamentale: il transformer processa tutti i token in parallelo, quindi non ha nozione intrinseca dell'ordine. "Il cane insegue il gatto" e "Il gatto insegue il cane" producono gli stessi token, in ordine diverso — e la differenza è tutto. La soluzione adottata nel paper è il positional encoding: a ogni token si aggiunge un vettore che codifica la sua posizione nella sequenza attraverso funzioni sinusoidali a frequenze diverse. Non è una soluzione elegante in senso architetturale, è quasi un hack — ma funziona straordinariamente bene nella pratica.

L'architettura completa del transformer alterna blocchi di multi-head attention con reti feed-forward posizione per posizione, layer normalization e connessioni residuali. La versione originale aveva una struttura encoder-decoder pensata per la traduzione automatica. I modelli successivi (BERT, GPT) useranno solo l'encoder o solo il decoder, scoprendo che anche queste versioni parziali hanno enormi capacità.

Perché "Attention Is All You Need" era provocatorio

Il titolo non era neutro. Era un atto di guerra accademica deliberato. La community NLP del 2017 era convinta che le reti ricorrenti fossero irreplaceable per la modellazione del linguaggio: catturavano la sequenzialità naturale del testo in modo che sembrava intrinsecamente corretto. I transformer non dicevano "siamo meglio delle RNN": dicevano "le RNN non servono, buttatele via."

I reviewer iniziali erano scettici. Il paper fu accettato a NeurIPS 2017 ma senza particolare entusiasmo — non fu premiato come best paper. La community era abituata a miglioramenti incrementali sulle architetture esistenti. Una proposta che eliminava la ricorrenza del tutto sembrava radicale fino all'eccesso.

In dodici mesi era diventato il paper più citato nel campo. I risultati sulla traduzione automatica erano inequivocabili: i transformer superavano LSTM di molti punti BLEU con molto meno tempo di training. La questione teorica su "perché funziona così bene" non era ancora del tutto risolta, ma empiricamente non c'era dibattito.

La genealogia che nasce da qui

Il 2018 è l'anno in cui il paradigma si consolida. Google pubblica BERT (Bidirectional Encoder Representations from Transformers): un transformer encoder pre-addestrato in modo bidirezionale su enormi quantità di testo, poi fine-tunable su task specifici. OpenAI pubblica GPT-1: un transformer decoder autoregressive, addestrato a predire il prossimo token. Due filosofie diverse — comprensione bidirezionale vs. generazione unidirezionale — ma entrambe costruite esattamente sull'architettura di Vaswani et al.

Nel 2019, GPT-2 porta i parametri a 1.5 miliardi. OpenAI decide inizialmente di non rilasciarlo pubblicamente per "rischi di disinformazione" — prima volta che un laboratorio trattiene un modello per ragioni di sicurezza. Nel 2020, GPT-3 arriva a 175 miliardi di parametri e dimostra il few-shot learning. Nel 2022, ChatGPT porta tutto questo al grande pubblico.

Nel 2023 e 2024: GPT-4, Claude 2 e 3, Gemini, LLaMA, Mistral, Grok. Ogni singolo modello che esiste oggi — senza eccezioni significative — usa l'architettura transformer o una sua variante diretta. I meccanismi di attenzione sono stati ottimizzati (Flash Attention, Group Query Attention, Sliding Window Attention), le architetture sono state modificate (Mixture of Experts, decoder-only vs encoder-decoder), ma il nucleo concettuale — self-attention, positional encoding, feed-forward per posizione — è immutato.

Il paper del 2017 è la radice da cui cresce l'intero albero dell'AI moderna. Non è un'esagerazione: è una descrizione tecnica precisa.

La strana storia degli autori

Esiste un'ironia nella storia di questo paper che vale la pena raccontare. Nessuno degli 8 autori lavora ancora a Google. L'azienda che ha pubblicato il paper — e che ha costruito quasi tutto il suo futuro AI su questa architettura — ha perso tutti i suoi autori negli anni successivi.

Ashish Vaswani e altri hanno co-fondato Adept AI, focalizzata su agenti che ragionano e agiscono. Noam Shazeer ha co-fondato Character.AI (poi tornato a Google con un'acquisizione da 2.7 miliardi). Llion Jones ha co-fondato Cohere, una delle principali piattaforme enterprise per LLM. Jakob Uszkoreit ha fondato Inceptive, che applica i transformer alla biologia molecolare per il design di RNA terapeutico.

Il paper più citato nella storia del deep learning è stato scritto da persone che hanno poi lasciato Google in massa per costruire le principali aziende AI della generazione successiva. Google ha costruito il suo futuro su idee di ricercatori che non ci lavorano più. È forse la più grande ironia della storia recente della tecnologia: il documento fondativo dell'era AI moderna è stato prodotto da persone che l'azienda non è riuscita a trattenere.

Link alla fonte originale

arxiv.org/abs/1706.03762 →

Paper originale 14 pagine, EN. Presentato NeurIPS 2017. 100.000+ citazioni.