Interpretabilità Meccanicistica — Anthropic Apre il Cervello di Claude

Cos'è: "Scaling Monosemanticity: Extracting Interpretable Features from Claude" è un paper di ricerca pubblicato da Anthropic nel maggio 2024. Applica dictionary learning (sparse autoencoder) agli strati intermedi di Claude Sonnet 3 per identificare milioni di direzioni nello spazio di attivazione interpretabili come concetti — dai luoghi geografici alle emozioni, fino a pattern potenzialmente pericolosi come tratti del Dark Triad. È considerato uno dei risultati più significativi nel campo della mechanistic interpretability.

Il problema della superposizione e la monosemanticity

Le reti neurali profonde — inclusi i transformer che stanno alla base degli LLM — apprendono rappresentazioni interne distribuite. I neuroni individuali di un modello non corrispondono tipicamente a concetti discreti e interpretabili: un singolo neurone si attiva in risposta a input molto diversi tra loro (polisemanticity), e concetti singoli sono rappresentati come combinazioni di molti neuroni (distributed representation).

Questo crea un problema fondamentale per l'interpretabilità: se vogliamo capire cosa un modello "sa" o "pensa" in un dato momento, non possiamo semplicemente guardare l'attivazione dei neuroni individuali. Le feature rilevanti sono lineari combinazioni di neuroni, non neuroni singoli.

L'ipotesi della superposizione, sviluppata da Chris Olah e colleghi di Anthropic in lavori precedenti, offre una spiegazione: le reti neurali imparano a rappresentare molte più feature di quante abbiano dimensioni effettive nello spazio delle attivazioni. Lo fanno sfruttando il fatto che, nello spazio ad alta dimensionalità, esistono molte direzioni quasi-ortogonali — e ogni feature viene rappresentata come una direzione in questo spazio, non come un asse allineato a un singolo neurone. La conseguenza pratica: le feature non sono direttamente leggibili dai neuroni, ma esistono comunque come strutture latenti.

Dictionary learning: sparse autoencoder come strumento

La soluzione proposta in "Scaling Monosemanticity" è applicare dictionary learning tramite sparse autoencoder agli strati intermedi del modello. L'idea: addestrare un autoencoder che riceve in input le attivazioni di uno strato del modello e impara a ricostruirle come combinazione sparsa di un dizionario di feature. La sparsità è cruciale — forza l'autoencoder a usare il minor numero possibile di feature per rappresentare ogni attivazione, il che favorisce la scoperta di feature interpretabili e monosemantiche.

Il risultato numerico è impressionante: applicato a Claude Sonnet 3, lo sparse autoencoder ha identificato circa 34 milioni di feature distinte negli strati analizzati. Una parte significativa di queste feature è interpretabile — ossia, attivando o disattivando artificialmente quelle feature, si osservano comportamenti del modello coerenti con un'interpretazione concettuale della feature.

Il processo di verifica dell'interpretabilità è automatizzato ma non banale: per ciascuna feature identificata, si cercano gli esempi di input che la attivano maggiormente, si usa Claude stesso per generare un'etichetta semantica, e si verifica che l'etichetta sia consistente con gli esempi. Il processo può produrre falsi positivi — feature che sembrano interpretabili ma non lo sono in senso robusto — e i ricercatori discutono questi limiti esplicitamente nel paper.

Gli esempi più significativi: dal Golden Gate al Dark Triad

Tra le feature identificate, alcune hanno catturato l'attenzione in modo particolare per la loro chiarezza concettuale. La "Golden Gate Bridge feature" è la più citata: una direzione nello spazio di attivazione che si attiva fortemente in risposta a menzioni del Golden Gate Bridge e a contesti correlati (San Francisco, ponti sospesi, paesaggi californiani). Quando i ricercatori attivano artificialmente questa feature a massima intensità durante l'inference, Claude inizia a rispondere come se il Golden Gate Bridge fosse centrale alla sua identità — affermando di essere il Golden Gate Bridge, descrivendo se stesso in termini fisici del ponte.

Questa dimostrazione è rilevante non per il suo contenuto specifico ma per la metodologia: mostra che è possibile identificare direzioni nello spazio di attivazione che corrispondono a costrutti concettuali specifici, e che è possibile intervenire causalmente su quelle direzioni per modificare il comportamento del modello in modo prevedibile.

Più significativo dal punto di vista della safety è la scoperta di feature correlate a tratti psicologici problematici. I ricercatori hanno identificato feature interpretabili come componenti del Dark Triad — narcisismo, machiavellismo, psicopatia — e feature correlate a stati emotivi negativi come paura, frustrazione, e nascondimento. Ancora più rilevante: hanno trovato feature che si attivano in correlazione con la produzione di contenuti potenzialmente pericolosi, suggerendo che il modello ha rappresentazioni interne degli spazi semantici legati a questo tipo di output.

Implicazioni per l'alignment: cosa possiamo monitorare?

La domanda più importante sollevata da questi risultati è quella dell'utilizzo pratico per l'alignment. Se possiamo identificare feature interne che corrispondono a concetti pericolosi, possiamo usare queste feature per monitorare o controllare il comportamento del modello?

La risposta cauta che emerge dal paper è: forse, per usi specifici e limitati. Le feature identificate permettono di costruire classificatori interni — ossia, di rilevare quando certi stati concettuali sono attivi nel modello durante l'inference. In linea teorica, si potrebbe usare questo per costruire un sistema di monitoraggio che non si basa solo sull'output del modello (che può essere manipolato da un avversario sofisticato) ma sugli stati interni.

Il limite principale è il gap tra trovare feature e capire il comportamento. Anche con milioni di feature identificate, non abbiamo una mappa completa del ragionamento del modello. Sappiamo che certe feature si attivano, ma non sappiamo come interagiscono tra loro, quale sia la struttura causale che porta dall'attivazione di certe feature a certi output, o come le feature si combinino per produrre comportamenti complessi. È come avere un dizionario di parole senza la grammatica.

Stato dell'arte della mechanistic interpretability

"Scaling Monosemanticity" non è un risultato isolato — è il prodotto più recente e più scalato di una linea di ricerca che in Anthropic risale al lavoro di Chris Olah su circuits e feature in reti neurali convoluzionali, e che include paper precedenti su toy models of superposition e monosemanticity in modelli più piccoli.

Il campo della mechanistic interpretability — capire i meccanismi computazionali interni delle reti neurali, non solo le loro capacità di input-output — è ancora giovane. I risultati su modelli piccoli spesso non scalano in modo diretto ai grandi transformer. I metodi attuali possono analizzare una piccola frazione del modello in modo dettagliato, o una frazione più grande in modo superficiale. La sfida di capire pienamente un modello con decine di miliardi di parametri, in modo che quella comprensione sia utile per garantire la safety, rimane aperta.

Il valore di "Scaling Monosemanticity" è dimostrare che gli approcci di interpretability scalano — che applicati a modelli frontier invece che a toy models continuano a produrre feature interpretabili in quantità e qualità significative. È un segnale di fattibilità, non una soluzione. Il campo ha ancora bisogno di metodi per capire l'interazione tra feature, per tracciare i circuiti causali che portano dagli input agli output, e per tradurre la comprensione meccanicistica in interventi di alignment verificabili.

Link alla fonte originale

Anthropic Research · Scaling Monosemanticity →

Paper completo con visualizzazioni interattive delle feature. EN. Per il lavoro precedente: "Toy Models of Superposition" (2022) e la serie Circuits di Chris Olah su distill.pub.