Circuits — Come Leggere il Cervello di una Rete Neurale

Chi è: Chris Olah, ricercatore AI specializzato in visualizzazione e interpretabilità delle reti neurali. Ha lavorato a Google Brain, poi a OpenAI, poi è diventato co-fondatore di Anthropic nel 2021 dove è oggi chief scientist per l'interpretabilità. È il creatore di Distill.pub, la rivista interattiva che ha ridefinito come si comunica la ricerca AI. La sua ricerca sui "circuits" è il punto d'origine della mechanistic interpretability — uno dei filoni più attivi della AI safety odierna.

Il problema dell'opacità: le reti neurali come scatole nere

Per decenni, la critica più comune alle reti neurali profonde è stata questa: funzionano, ma non sappiamo perché. Un modello di visione addestrato su ImageNet classifica i gatti con accuracy del 99% — ma nessuno sa esattamente quale processo interno produce quella classificazione. I pesi della rete sono miliardi di numeri floating-point, e la loro interpretazione collettiva è opaca. Questo ha implicazioni pratiche: se non capisco perché un modello sbaglia, non posso correggerlo in modo affidabile. E ha implicazioni di sicurezza: se non capisco cosa "pensa" un modello, come posso fidarmi che si comporti bene in contesti critici?

Nel 2020, Olah e colleghi a OpenAI decidono di affrontare questo problema non con astrazioni teoriche, ma con ispezione diretta e sistematica. Aprono InceptionV1 — una CNN classica per classificazione di immagini — e cercano di capire cosa fa ogni singolo neurone, e come i neuroni si connettono tra loro.

Feature visualization: vedere cosa attiva ogni neurone

Il metodo di base è la feature visualization. Per ogni neurone della rete, si genera l'immagine che lo attiva di più — l'immagine sintetica che massimizza la risposta di quel neurone. Questo richiede ottimizzazione iterativa: si parte da rumore casuale e si modificano i pixel in modo da aumentare progressivamente l'attivazione del neurone target.

Quello che Olah e colleghi trovano sfida l'assunzione di opacità: i neuroni delle prime layer sono leggibili. Neurone per neurone, si possono identificare feature specifiche e interpretabili. Ci sono neuroni che rilevano bordi orizzontali, verticali, diagonali. Neuroni che rilevano frequenze spaziali specifiche — texture ad alta o bassa frequenza. Neuroni che rilevano curve verso sinistra, curve verso destra, angoli. Nella terminologia del paper: questi neuroni sono "curve detectors", "frequency detectors", "line detectors".

Procedendo verso layer più profonde, i neuroni rilevano feature via via più complesse. Ci sono neuroni che si attivano per occhi di animali. Neuroni che rilevano teste di cane specificamente. Neuroni che rilevano materiali — metallo, pelo, tessuto. La progressione dalle feature semplici a quelle complesse attraverso le layer non è casuale: è sistematica, replicabile, e coerente con l'intuizione su come dovrebbe funzionare un sistema di visione gerarchico.

Circuiti: i neuroni parlano tra loro

La scoperta più importante non riguarda i singoli neuroni — riguarda come si connettono. Olah introduce il concetto di "circuit": un sottoinsieme di neuroni e delle connessioni tra loro che implementa collettivamente una funzione specifica e comprensibile.

Il circuito più chiaro descritto nel paper è il "curve detector circuit". Un neurone che rileva curve verso sinistra non funziona in isolamento — riceve input da neuroni che rilevano linee orientate, e invia output a neuroni che rilevano strutture ancora più complesse. Questa catena input→processing→output ha una logica analizzabile: è un circuito nel senso ingegneristico del termine. Si può tracciare il segnale, capire cosa ogni nodo fa, e verificare che l'output del circuito corrisponda alla funzione che ci aspettiamo.

Questo è il salto concettuale del paper: non solo i singoli neuroni sono interpretabili, ma le loro connessioni formano strutture interpretabili. Una rete neurale non è un blob opaco di numeri — è una collezione di circuiti funzionali, come una scheda elettronica. Non ancora con la stessa chiarezza di una scheda progettata intenzionalmente, ma con una struttura reale che si può studiare.

Neuroni multimodali: la scoperta che sorprende

Tra le scoperte del paper, quella che ha avuto più impatto mediatico e scientifico è la scoperta dei neuroni multimodali. Questi sono neuroni che si attivano per categorie concettualmente diverse ma semanticamente correlate.

L'esempio più citato: un neurone nella rete si attiva fortemente per immagini di Bugs Bunny, per fotografie di conigli reali, e per la parola "rabbit" scritta nelle immagini di testo. Tre stimoli radicalmente diversi dal punto di vista percettivo — un personaggio animato, un animale reale, del testo — uniti dal concetto di "coniglio". Il neurone non rileva una feature visiva specifica: rileva un concetto attraverso modalità diverse.

Questo era inaspettato. I neuroni multimodali erano stati descritti nei primati in neuroscienze — neuroni nella corteccia visiva che rispondono sia a stimoli visivi che uditivi associati allo stesso concetto. Trovare strutture analoghe in una CNN addestrata su ImageNet, senza nessun meccanismo esplicito per la multimodalità, suggerisce che questa proprietà emerge naturalmente dall'ottimizzazione su dati sufficientemente ricchi.

Il fondamento della mechanistic interpretability

Il paper del 2020 è il documento fondativo di quello che oggi si chiama mechanistic interpretability — il tentativo di capire il funzionamento interno dei modelli AI a livello meccanicistico, neurone per neurone e circuito per circuito. Olah ha continuato questa linea di ricerca dopo essersi unito ad Anthropic, dove ha costruito un team dedicato.

I risultati successivi hanno esteso il framework dai modelli di visione ai modelli linguistici. In GPT-2 e modelli transformer più grandi, sono stati identificati "induction heads" — circuiti specifici che implementano l'in-context learning, la capacità di seguire pattern mostrati nel contesto. Sono stati trovati circuiti che gestiscono la completamento di pattern matematici semplici, circuiti per la gestione di nomi propri, circuiti per la coerenza pronominale.

Nel 2023, il team di Anthropic ha pubblicato "Towards Monosemanticity" — un paper che usa sparse autoencoders per separare le feature "polisemantiche" dei neuroni (dove un singolo neurone risponde a più concetti distinti) in feature monosemantiche più interpretabili. È il passo metodologico più importante dopo il paper originale del 2020.

Perché l'interpretabilità conta per la sicurezza

L'obiettivo finale di questa ricerca non è accademica. Se possiamo leggere cosa "pensa" un modello — se possiamo identificare i circuiti che implementano certi comportamenti — possiamo fare cose importanti che oggi non siamo in grado di fare.

Possiamo verificare se un modello ha appreso obiettivi indesiderati che non si manifestano nei test standard ma potrebbero emergere in deployment. Possiamo identificare dove si trovano le rappresentazioni di comportamenti pericolosi, e potenzialmente rimuoverle o modificarle in modo chirurgico piuttosto che attraverso fine-tuning blunt. Possiamo dare garanzie più robuste sulla sicurezza di un sistema — non basate solo su test comportamentali (che possono essere ingannati), ma su ispezione diretta del meccanismo.

Olah ha descritto questo obiettivo con una metafora medica: vogliamo fare la differenza tra un elettroencefalogramma (misura comportamentale dall'esterno) e un'autopsia (ispezione diretta del meccanismo). Per la sicurezza dei sistemi AI che deployiamo su larga scala, la differenza tra questi due livelli di comprensione potrebbe essere decisiva.

Link alla fonte originale

distill.pub — Thread: Circuits →

Articolo interattivo con visualizzazioni. Distill.pub è ora inattivo come rivista, ma gli articoli rimangono online. EN.