Sparse Autoencoders — Lo Strumento che Apre il Cervello degli LLM

Cos'è: Gli Sparse Autoencoders (SAE) sono una tecnica di interpretabilità meccanicistica resa famosa da Anthropic nell'ottobre 2023 con il paper "Towards Monosemanticity" e portata su scala industriale a maggio 2024 con "Scaling Monosemanticity to Claude 3 Sonnet", che ha estratto oltre 34 milioni di feature interpretabili dal residual stream del modello. L'idea: usare dictionary learning per decomporre le attivazioni "polisemantiche" della rete in tante feature "monosemantiche", ognuna corrispondente a un concetto umano-leggibile. È diventata la prima tecnica credibile per leggere e potenzialmente manipolare il "pensiero" di un LLM moderno, e ha generato un'intera nuova sotto-disciplina nel 2024 con replica indipendente di OpenAI e adozione diffusa nella safety research.

Il problema: la sovrapposizione (superposition) nelle reti neurali

Una scoperta fondamentale dell'interpretabilità meccanicistica, formalizzata da Anthropic nel paper "Toy Models of Superposition" (settembre 2022), è che le reti neurali immagazzinano più concetti di quanti neuroni abbiano. Una rete con 10.000 neuroni nel residual stream può rappresentare 50.000 o 100.000 "feature" distinte, sfruttando la geometria di alta dimensione: feature diverse vivono su direzioni diverse del vettore di attivazione, sovrapposte in modo che ogni singolo neurone partecipi a più concetti simultaneamente. Questo è il fenomeno della superposition o polisemanticità.

La conseguenza pratica: guardare un singolo neurone non aiuta a capire cosa fa il modello, perché ogni neurone si attiva su input apparentemente non correlati (può essere attivo per "DNA", "Python code" e "Marsiglia" allo stesso tempo, semplicemente perché queste tre feature usano direzioni del residual stream che proiettano sul neurone con coefficienti non nulli). La sfida dell'interpretabilità diventa: come trovare le feature monosemantiche nascoste sotto la superficie polisemantica dei neuroni?

L'idea SAE: dictionary learning sul residual stream

La soluzione adottata da Anthropic in "Toward Monosemanticity" (ottobre 2023, primo autore Trenton Bricken) è il dictionary learning con sparse autoencoders. Si addestra un piccolo modello a due strati: un encoder che mappa il residual stream (dimensione d, tipicamente 512–16384) in uno spazio molto più ampio (dimensione n × d, con n da 8 a 64), e un decoder che ricostruisce l'input dallo spazio espanso. La loss è la somma della loss di ricostruzione (MSE tra input e ricostruito) e una loss di sparsity (norma L1 sulle attivazioni espanse).

L'effetto: il SAE impara un "dizionario" di n × d direzioni (feature), e ogni input viene espresso come combinazione lineare sparsa di pochissime di queste direzioni — tipicamente 50-200 feature attive per token su decine di migliaia disponibili. Le feature risultanti sono monosemantiche: ognuna corrisponde a un concetto umano-leggibile coerente, identificabile guardando quali input la attivano di più. Concetti come "DNA", "Python list comprehension", "tono passivo-aggressivo", "Marsiglia" diventano feature separate invece di essere mescolate in neuroni polisemantici.

Scaling Monosemanticity: dalla giocattolo a Claude 3 Sonnet

Il primo paper Anthropic del 2023 lavorava su un modello giocattolo a un solo layer transformer. La domanda aperta era se la tecnica scalasse su modelli produzione. La risposta è arrivata a maggio 2024 con Scaling Monosemanticity to Claude 3 Sonnet: Anthropic ha addestrato SAE giganti (fino a 34 milioni di feature) sul residual stream del modello Claude 3 Sonnet, che è uno dei modelli frontier in produzione. I risultati hanno cambiato il dibattito.

Anthropic ha trovato feature interpretabili su praticamente ogni argomento testato: città specifiche (Golden Gate Bridge, Tokyo), persone (Brian Eno, Donald Trump), concetti astratti (codice insicuro, sycophancy, ingannare), emozioni, generi letterari, errori tipografici, perfino feature multilingua che si attivano sullo stesso concetto in inglese, cinese e francese. Il paper include la dimostrazione virale del "Golden Gate Claude": amplificando artificialmente la feature corrispondente al Golden Gate Bridge, il modello inizia a parlarne ossessivamente in qualsiasi conversazione, perfino sostenendo di essere il ponte. È la prima dimostrazione visibile di steering: manipolare il comportamento del modello attivando o sopprimendo feature specifiche.

Use case, replica OpenAI e l'esplosione 2024

Gli use case pratici degli SAE si sono articolati su quattro fronti durante il 2024. Il primo è il steering: oltre al Golden Gate Bridge, Anthropic ha mostrato di poter sopprimere feature legate a deception, contenuti pericolosi o sycophancy, ottenendo modelli più allineati in modo chirurgico — un'alternativa o complemento al RLHF tradizionale. Il secondo è il debugging dell'allineamento: ispezionare quali feature si attivano quando il modello genera output problematici fornisce evidenza causale di cosa è andato storto. Il terzo è la halluzination detection: alcuni gruppi hanno isolato feature che si attivano quando il modello "inventa" fatti, fornendo segnali predittivi per il monitoring runtime. Il quarto è la safety research più generale: per la prima volta esiste uno strumento per fare ipotesi falsificabili su cosa un LLM sta "pensando" internamente.

A giugno 2024 OpenAI pubblica "Extracting Concepts from GPT-4", replicando indipendentemente la tecnica su GPT-4 e estraendo 16 milioni di feature. Il paper conferma i risultati Anthropic, valida la generalità del metodo e segnala che il principale laboratorio rivale considera gli SAE prioritari. A ottobre 2024 OpenAI rilascia anche codice e checkpoint open-source di SAE per GPT-2 e altri modelli. Google DeepMind e diversi laboratori accademici (Apollo Research, EleutherAI, MIT) hanno tutti pubblicato lavori SAE nel corso del 2024.

I limiti riconosciuti restano significativi: gli SAE non sono garantiti completi (alcune feature potrebbero sfuggire), la qualità dipende molto da iperparametri e dimensione del dizionario, e l'interpretazione delle feature è ancora semi-manuale. Ma per la prima volta dal 2017 — quando i transformer sono diventati la norma e la loro opacità un problema sistemico — abbiamo uno strumento che apre, almeno parzialmente, la scatola nera. Per la safety research, è probabilmente il singolo sviluppo tecnico più importante del biennio 2023-2024.

Link alla fonte originale

Anthropic — "Towards Monosemanticity: Decomposing Language Models with Dictionary Learning" →

Pubblicato su transformer-circuits.pub a ottobre 2023, autori Trenton Bricken et al. Il follow-up "Scaling Monosemanticity to Claude 3 Sonnet" è di maggio 2024 (transformer-circuits.pub/2024/scaling-monosemanticity). Il paper OpenAI "Scaling and evaluating sparse autoencoders" è di giugno 2024 (arXiv:2406.04093). Per visualizzazioni interattive: neuronpedia.org.