Anca Dragan — La Berkeley che ha Portato Google DeepMind sull'AI Safety Applicata

Chi è: Anca Dragan è professoressa associata di Electrical Engineering and Computer Science alla University of California Berkeley, dove dirige l'InterACT Lab. Il suo lavoro si situa all'intersezione tra robotica, machine learning e human-robot interaction, con applicazioni concrete nei veicoli autonomi e nei sistemi assistivi. Nel 2024 è stata nominata Director of AI Safety and Alignment a Google DeepMind, portando in un laboratorio frontier una scuola di pensiero sulla safety profondamente diversa da quella x-risk-oriented dominante nel discorso pubblico.

La scuola di Berkeley: safety come problema di interazione

Dragan si è formata alla Carnegie Mellon, dove ha completato il PhD nel 2015 con tesi sull'intent expression nei movimenti robotici. È approdata a Berkeley nel 2015, dove ha fondato e dirige l'InterACT Lab insieme a una collaborazione strutturale con Pieter Abbeel, Stuart Russell e Sergey Levine — un nucleo di ricercatori che ha definito quella che si può chiamare "scuola di Berkeley" della AI safety.

Il tratto distintivo di questa scuola è metodologico: trattare la safety come problema di interazione umano-macchina invece che come problema di ottimizzazione astratta. La domanda non è solo "come facciamo a essere certi che il sistema massimizzi la funzione di reward giusta", ma "come facciamo a essere certi che il sistema modelli correttamente le intenzioni umane in contesti realistici, dove le intenzioni sono ambigue, dipendenti dal contesto, e parzialmente inferite dal comportamento".

Questa impostazione produce un'agenda di ricerca distinta. Invece di concentrarsi sulla superintelligenza ipotetica, Dragan e il suo gruppo lavorano su sistemi AI dispiegati oggi — auto a guida autonoma, robot domestici, assistenti chirurgici — dove i problemi di safety si manifestano in modo concreto: un veicolo che modella male le intenzioni del pedone, un robot che non comunica chiaramente cosa sta per fare, un sistema che ottimizza la metrica sbagliata perché la sua specifica era incompleta.

Inverse Reward Design e il problema della specifica incompleta

Tra i contributi tecnici più citati di Dragan c'è Inverse Reward Design (IRD), un framework formalizzato in un paper del 2017 con Dylan Hadfield-Menell, Smitha Milli e Stuart Russell. L'idea centrale: quando un progettista umano specifica una reward function a un agente, quella specifica è quasi sempre incompleta. Funziona nell'ambiente di training, ma non copre tutti i casi possibili nell'ambiente di deployment.

Il classico esempio: addestriamo un robot a navigare evitando ostacoli in un ambiente con lava (segnalata come penalità). In deployment, il robot incontra un ambiente con sabbia (mai vista in training). La reward function originale non dice nulla sulla sabbia. Un agente standard la attraversa allegramente, magari rovinandosi. IRD propone un approccio diverso: trattare la reward function specificata come evidenza Bayesiana sulle preferenze reali del progettista, non come specifica completa. Quando l'agente incontra situazioni out-of-distribution, dovrebbe agire conservativamente — preferendo azioni con incertezza ridotta sulla reward — invece di ottimizzare ciecamente.

La portata concettuale è significativa. IRD formalizza l'intuizione che la safety non viene dal far ottimizzare meglio agli AI ciò che gli diciamo, ma dal farli essere appropriatamente incerti su ciò che vogliamo. È un'inversione del framing tradizionale dell'AI: meno capacità di ottimizzazione, più capacità di riconoscere i limiti della propria specifica.

Legibility delle azioni: comunicare l'intenzione

Un secondo filone della ricerca di Dragan riguarda la legibility — la proprietà per cui un'azione robotica comunica chiaramente l'intenzione del robot a un osservatore umano. Il concetto è formalizzato in un paper del 2013 con Siddhartha Srinivasa che ha avuto impatto diretto sul design dei sistemi commerciali di robotica.

L'esempio canonico: un braccio robotico che deve afferrare uno di due oggetti su un tavolo. La traiettoria "predittiva" (efficiente, minimizza energia) può essere ambigua — un osservatore umano non capisce quale oggetto verrà preso finché il braccio non è quasi sopra di esso. La traiettoria "leggibile" è meno efficiente energeticamente ma più espressiva — devia inizialmente verso l'oggetto target in modo che l'intenzione sia chiara dall'inizio. Per un robot che lavora vicino agli umani, la traiettoria leggibile è quella più sicura, perché permette al collaboratore umano di anticipare e coordinarsi.

Questo lavoro ha applicazioni dirette ai veicoli autonomi. Una self-driving car che decelera per fermarsi a un incrocio comunica qualcosa di diverso da una che decelera per dare precedenza. Le decisioni di policy del veicolo non riguardano solo cosa fare, ma anche come segnalarlo ai pedoni e agli altri guidatori. Waymo e Cruise hanno implementato versioni operative di questi concetti nei loro sistemi di deployment.

La nomina a Google DeepMind 2024: cosa significa

Nel 2024, Google DeepMind ha annunciato la nomina di Dragan a Director of AI Safety and Alignment. La posizione è significativa per più ragioni. Primo: DeepMind ha una storia di organizzare la safety in modo distribuito tra più team — interpretability, scalable oversight, evaluation — senza una direzione unificata pubblicamente visibile. La creazione di un ruolo direttoriale dedicato segnala un'intenzione di consolidare strategicamente l'agenda.

Secondo: Dragan porta una scuola di pensiero diversa da quella che ha dominato i team di safety dei laboratori frontier negli ultimi anni. Mentre il discorso interno a OpenAI e Anthropic è stato strutturato attorno al problema della superintelligenza, dell'allineamento dei sistemi più capaci dei loro valutatori, e della scalable oversight, l'agenda di Dragan è radicata nei problemi di safety osservabili nei sistemi attuali — bias di reward, distributional shift, comunicazione di intenzione, modeling delle preferenze utente sotto incertezza.

Questa è una scelta strategica leggibile. Gemini è un sistema deployato a centinaia di milioni di utenti. I problemi di safety che colpiscono Gemini oggi non sono quelli della superintelligenza ipotetica, ma quelli concreti dell'interazione AI-umano su scala: refusal patterns, allucinazioni in contesti sensibili, modeling delle preferenze in domini culturalmente eterogenei. La nomina di Dragan suggerisce che DeepMind sta investendo nel safety post-training di Gemini con una metodologia derivata dalla tradizione Berkeley — empirica, applicata, focalizzata sui sistemi reali invece che sui sistemi ipotetici.

Il contributo più interessante che Dragan potrebbe portare al campo è proprio la legittimazione di una concezione di safety alternativa al framing x-risk. Non in opposizione — entrambe le tradizioni sono legittime e affrontano problemi reali — ma come dimostrazione che la safety AI non è una disciplina monolitica. Le scelte fatte oggi nei team di alignment dei laboratori frontier determineranno quale tradizione diventa lo standard de facto del campo.

Link alla fonte originale

Anca Dragan · UC Berkeley →

Pagina accademica con elenco completo delle pubblicazioni, video di lezioni, e descrizione dell'InterACT Lab. EN.