Paper · Foundational research
Retentive Networks — Microsoft Propone l'Alternativa Architetturale ai Transformer
Original source: Sun et al. · Microsoft Research · "Retentive Network: A Successor to Transformer for Large Language Models" · arXiv:2307.08621 · luglio 2023 — summary and rework in own words.
Cos'è: Retentive Networks (RetNet) è un'architettura per modelli linguistici proposta da Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang e Furu Wei di Microsoft Research nel luglio 2023, pensata come potenziale successore del Transformer. La proposta centrale è la risoluzione di quello che gli autori chiamano "impossible triangle": training parallelizzabile (come i Transformer), inferenza ricorrente O(1) per token (come gli RNN), performance asintotica pari ai Transformer di dimensione comparabile. Il meccanismo di Multi-Scale Retention sostituisce la self-attention, ammettendo tre formulazioni matematicamente equivalenti — parallelizzata per il training, ricorrente per l'inferenza, chunkwise per il caso intermedio — che offrono il meglio di entrambi i mondi sequenza per sequenza.
L'impossible triangle: i tre vertici inconciliati
Per circa cinque anni, dal 2017 (paper "Attention is All You Need") fino al 2023, l'architettura Transformer ha dominato il NLP senza serie alternative. Il dominio non era casuale: il Transformer ha risolto un trade-off tradizionalmente considerato intrattabile. Gli RNN classici (LSTM, GRU) avevano inferenza ricorrente efficiente (O(1) memoria per token), ma training sequenziale che non si parallelizzava sulla dimensione temporale. I CNN per testo erano parallelizzabili in training ma avevano context window limitato dalla finestra del filtro. Il Transformer ha raggiunto la parallelizzazione completa del training grazie alla self-attention, al costo però di un'inferenza sequenziale altrettanto costosa (ogni nuovo token richiede di ri-attentare a tutti i precedenti via KV cache).
Sun et al. formalizzano questa situazione come "impossible triangle" — un triangolo con tre vertici: training parallelism, inference efficiency (O(1) per token, non O(n) come nei Transformer), e modeling performance. Le architetture esistenti coprono al massimo due vertici. I Transformer hanno parallelism e performance ma inferenza O(n). Gli RNN hanno inferenza O(1) e parallelism limitato. Le architetture linear attention/Performer/Linformer hanno parallelism e inferenza efficiente ma performance compromessa. RetNet pretende di chiudere il triangolo.
Il meccanismo: Multi-Scale Retention
L'unità centrale di RetNet è la Retention: una variante della self-attention che incorpora un decadimento esponenziale del passato. Per ogni token, le attivazioni dei token precedenti contribuiscono al token corrente con un peso che decade esponenzialmente con la distanza temporale, modulato da un coefficiente gamma che è un iperparametro per testa. Matematicamente la retention si può scrivere come una somma pesata Y_n = sum_(m≤n) gamma^(n-m) Q_n K_m^T V_m, dove gamma è il fattore di decadimento.
La cosa elegante è che questa formulazione ammette tre rappresentazioni matematicamente equivalenti. La forma parallela calcola tutta la matrice di retention in un colpo, esattamente come l'attention dei Transformer (utile per il training: tutta la sequenza in parallelo). La forma ricorrente aggiorna uno stato S_n di dimensione fissa: S_n = gamma * S_(n-1) + K_n^T V_n, e Y_n = Q_n * S_n. Memoria costante per token, tempo costante per token: O(1) inferenza. La forma chunkwise processa la sequenza a blocchi di lunghezza C, combinando le due forme: parallelizzazione all'interno del blocco, ricorrenza tra blocchi. Utile per sequenze molto lunghe in inferenza.
Multi-Scale significa che il modello usa molte teste di retention in parallelo, ciascuna con un valore gamma diverso: alcune teste hanno gamma vicino a 1 (memoria lunga, decadimento lento) e altre gamma più piccolo (memoria breve, focus locale). L'idea è di catturare contemporaneamente dipendenze a scala diversa, sostituendo la flessibilità totale dell'attention con un mix esplicito di scale temporali.
Risultati: parità con Transformer a parità di scala
Il paper presenta esperimenti su modelli da 1.3B, 2.7B, 6.7B parametri addestrati su corpora standard. La metrica chiave è la perplexity (loss di predizione del prossimo token) su validation set come The Pile. RetNet raggiunge perplexity comparabile o leggermente migliore dei Transformer baseline a parità di parametri e training tokens. Su benchmark di downstream task (zero-shot e few-shot su HellaSwag, BoolQ, PIQA, Winogrande, ARC) la differenza è di frazioni di punto, statisticamente non significativa, in entrambe le direzioni.
Il vero vantaggio promesso si manifesta in inferenza. Su un modello da 6.7B, RetNet ha throughput di inferenza 8.4x superiore al Transformer baseline per sequenze di 8192 token, e usa il 70% meno memoria GPU (perché non c'è KV cache da mantenere — la rappresentazione del passato è compressa in uno stato di dimensione fissa). Per sequenze molto lunghe (32K, 128K) il vantaggio cresce ulteriormente. È esattamente lo scenario in cui i Transformer soffrono di più: ogni nuovo token deve attendere su tutti i precedenti.
Latenza per token: su una sequenza già lunga 8K, generare il token 8001 con un Transformer richiede ~50ms (deve attentare a 8000 token); con RetNet richiede ~3ms (semplice update dello stato ricorrente). Per applicazioni di chatbot con context lungo o per task di generazione di documenti, il guadagno operativo sarebbe enorme.
Confronto con RWKV, Mamba, e lo state-space comeback
RetNet non è uscito in un vuoto. Nel 2023 c'è stata un'ondata simultanea di ricerca sulle "linear-time architectures" che potessero competere con i Transformer. RWKV (Bo Peng et al., maggio 2023) è una proposta indipendente con motivazioni simili: un RNN-like model che ammette training parallelizzato via una formulazione speciale del kernel ricorrente. Mamba (Albert Gu & Tri Dao, dicembre 2023) viene cinque mesi dopo RetNet e usa State-Space Models (SSM) con un meccanismo di "selective scan" che permette dependenza dal contenuto. Mamba è oggi considerata l'architettura non-Transformer più rilevante della seconda metà del 2024.
La relazione tra le tre è strutturale: tutte e tre sono rappresentazioni di una ricorrenza lineare con stato a dimensione fissa, espressa in forme matematicamente diverse. Mamba aggiunge la selettività del contenuto (i parametri della ricorrenza dipendono dall'input, mentre in RetNet sono fissi), che la rende strettamente più espressiva. Lo studio "Linear Attention is Secretly Mamba" (Han Cai et al., 2024) ha formalizzato l'unificazione: linear attention, RetNet, RWKV e Mamba sono tutti casi particolari di una stessa classe di operatori sequenziali.
In termini di adozione produttiva, nessuna di queste alternative ha (ancora) sostituito il Transformer come architettura dominante per LLM di frontiera. Le ragioni sono pragmatiche: il software stack (FlashAttention, vLLM, kernels CUDA ottimizzati, librerie di training distribuito) è massicciamente ottimizzato per i Transformer, e il vantaggio architetturale di RetNet/Mamba viene parzialmente eroso da queste ottimizzazioni quando il Transformer è eseguito in modo industriale.
Impatto: dove RetNet ha lasciato il segno
Pur senza adozione massiva in produzione come architettura di prim'ordine, RetNet ha avuto influenza in due aree concrete. La prima è interna Microsoft: il paper proviene dallo stesso team che ha lavorato a Phi (la serie di modelli small Phi-1, Phi-2, Phi-3) e a componenti di Bing Chat. Le scelte architetturali — particolarmente la decisione di esplorare ibridazioni Transformer + retention layer per ottenere il meglio di entrambi — sono visibili nelle versioni successive del lavoro Microsoft. Phi-3.5 (agosto 2024) include menzioni di sperimentazione con architetture ibride attention+retention.
La seconda area è metodologica. RetNet ha stabilito il framework "training parallelism + inference recurrence" come obiettivo di design legittimo, separato dalla questione della performance assoluta. Tutta la generazione successiva di papers su alternative al Transformer — Mamba, Mamba-2, Jamba (AI21, ibrido), Griffin (DeepMind) — riferisce esplicitamente o implicitamente al framework di RetNet. È un caso classico di paper che non vince come architettura ma vince come definizione del problema.
Le ricerche successive al 2024 hanno migliorato sostanzialmente i numeri (Mamba batte RetNet su molti benchmark, Mamba-2 batte ancora) ma RetNet rimane il riferimento storico per la formulazione del "impossible triangle" e per la dimostrazione che esistono formulazioni della retention/attention espresse simultaneamente in forma parallela e ricorrente. Per chi studia oggi l'evoluzione delle architetture sequenziali, il paper Sun et al. 2023 è una lettura obbligata.
Link alla fonte originale
Paper originale EN, Sun et al. Microsoft Research, luglio 2023. Codice open-source su github.com/microsoft/unilm/tree/master/retnet. Architettura di riferimento per la generazione di lavori sulle alternative al Transformer (Mamba, RWKV, Jamba, Griffin).