Mapping the Mind of LLMs: Anthropic identifica features interpretabili in Claude 3 Sonnet
In una frase Anthropic pubblica la ricerca più dettagliata finora sull'interpretabilità mechanistica di un LLM commerciale: features per 'Trump', 'schiavitù', 'codice Python' hanno rappresentazioni identificabili nei pesi di Claude 3 Sonnet.
Come funziona davvero un grande modello di linguaggio internamente? Per anni la risposta onesta è stata: non lo sappiamo. Il progetto di interpretability mechanistica di Anthropic sta cominciando a cambiare questa risposta.
I ricercatori hanno identificato in Claude 3 Sonnet features specifiche: direzioni nello spazio delle attivazioni del modello che corrispondono a concetti semantici precisi e interpretabili. Alcune features corrispondono a concetti come "Donald Trump", "schiavitù come concetto storico", "codice Python", "sentiment negativo".
Quando queste features sono attive, il modello elabora il testo in modo correlato al concetto corrispondente. Quando vengono artificialmente attivate o disattivate (attraverso activation patching), il comportamento del modello cambia in modo prevedibile e coerente con il concetto.
Questo non significa che capiamo tutto del modello, ma è il primo passo concreto verso una comprensione causale di cosa succede dentro un LLM, con implicazioni dirette per la sicurezza e la verifica dell'allineamento.
Aziende
Anthropic
Tool
Claude 3 Sonnet
Tag
Fonti