Mapping the Mind of LLMs: Anthropic identifica features interpretabili in Claude 3 Sonnet

In una frase Anthropic pubblica la ricerca più dettagliata finora sull'interpretabilità mechanistica di un LLM commerciale: features per 'Trump', 'schiavitù', 'codice Python' hanno rappresentazioni identificabili nei pesi di Claude 3 Sonnet.

Verificato Fonte ufficiale

CondividiLinkedIn X

Come funziona davvero un grande modello di linguaggio internamente? Per anni la risposta onesta è stata: non lo sappiamo. Il progetto di interpretability mechanistica di Anthropic sta cominciando a cambiare questa risposta.

I ricercatori hanno identificato in Claude 3 Sonnet features specifiche: direzioni nello spazio delle attivazioni del modello che corrispondono a concetti semantici precisi e interpretabili. Alcune features corrispondono a concetti come "Donald Trump", "schiavitù come concetto storico", "codice Python", "sentiment negativo".

Quando queste features sono attive, il modello elabora il testo in modo correlato al concetto corrispondente. Quando vengono artificialmente attivate o disattivate (attraverso activation patching), il comportamento del modello cambia in modo prevedibile e coerente con il concetto.

Questo non significa che capiamo tutto del modello, ma è il primo passo concreto verso una comprensione causale di cosa succede dentro un LLM, con implicazioni dirette per la sicurezza e la verifica dell'allineamento.