Jan Leike — Dalle Dimissioni da OpenAI ad Anthropic: la Scalable Oversight come Missione

Chi è: Jan Leike è un ricercatore di machine learning con dottorato all'Australian National University e post-doc al Future of Humanity Institute di Oxford. È stato co-lead del Superalignment Team di OpenAI dal luglio 2023 fino alle dimissioni del 17 maggio 2024, annunciate con un thread pubblico esplicito su X che ha denunciato la deriva safety dell'organizzazione. Pochi giorni dopo è passato ad Anthropic per dirigere la ricerca su scalable oversight — il problema di come supervisionare sistemi AI più capaci dei propri valutatori umani.

Il Superalignment Team e la promessa del 20% di compute

Nel luglio 2023, OpenAI annunciò pubblicamente la creazione del Superalignment Team con un blog post che fece notizia: Sam Altman e Ilya Sutskever scrivevano che la superintelligenza poteva arrivare in questo decennio, che era "potenzialmente la tecnologia più impattante che l'umanità abbia mai inventato", e che OpenAI avrebbe dedicato il 20% della propria compute disponibile alla ricerca su come allinearla. Co-lead del team erano Ilya Sutskever, chief scientist e co-fondatore, e Jan Leike, che lavorava sull'allineamento in OpenAI dal 2021.

L'obiettivo dichiarato era ambizioso: risolvere i problemi tecnici fondamentali dell'allineamento della superintelligenza entro quattro anni. Il framing era cristallino — non si trattava di tuning di prodotto né di sicurezza incrementale, ma di una scommessa di ricerca su come mantenere il controllo umano su sistemi che, per definizione, avrebbero superato la capacità dei loro supervisori di valutarne direttamente i comportamenti.

Leike era la persona giusta per quel ruolo. Le sue pubblicazioni precedenti includevano lavori fondamentali su recursive reward modeling, debate come tecnica di allineamento, e safe exploration in reinforcement learning. La sua tesi tecnica di base — articolata in un saggio del 2022 dal titolo "Why I'm optimistic about our alignment approach" — era che RLHF scalato con reward model sempre più sofisticati, combinato con tecniche di amplificazione del feedback umano, potesse portare lontano abbastanza da allineare i primi sistemi AGI.

Il thread del 17 maggio 2024: "safety culture has taken a backseat"

Il 17 maggio 2024, due giorni dopo l'annuncio delle dimissioni di Ilya Sutskever, Leike pubblicò su X un thread di tredici tweet che divenne immediatamente uno dei documenti più citati del dibattito sulla cultura interna dei laboratori AI. Il testo non era retorico né emotivo — era una denuncia tecnica strutturata, redatta da chi conosceva i meccanismi dall'interno.

Le frasi chiave del thread: "Building smarter-than-human machines is an inherently dangerous endeavor." E poi, con riferimento esplicito a OpenAI: "Over the past years, safety culture and processes have taken a backseat to shiny products." Leike documentava di avere combattuto a lungo per ottenere risorse computazionali per il team — il famoso 20% promesso — e di non averle ottenute. Scriveva che diventare ricercatore di safety in OpenAI era diventato sempre più difficile, e che la sua decisione era maturata gradualmente come accumulo di disaccordi sulle priorità organizzative.

L'effetto pubblico fu rilevante. Il thread venne ripreso da tutti i principali outlet tecnologici. Sam Altman rispose con un tweet breve riconoscendo che OpenAI aveva "molto lavoro da fare" sulla safety. Pochi giorni dopo, OpenAI annunciò ufficialmente lo scioglimento del Superalignment Team come unità separata e la sua dissoluzione in altri gruppi di ricerca. Il segnale era inequivocabile: la struttura organizzativa costruita un anno prima per affrontare il problema del controllo della superintelligenza non esisteva più.

Il passaggio ad Anthropic e la scalable oversight

Il 28 maggio 2024, undici giorni dopo le dimissioni, Leike annunciò il suo ingresso in Anthropic con un altro post su X. La motivazione che articolava era diretta: "Anthropic's mission and the team's focus on scalable oversight, weak-to-strong generalization, and automated alignment research is exactly what I want to be working on." In altre parole, non si trattava di un cambio di lavoro motivato da compensazione o opportunità di carriera, ma da convergenza tecnica con un'agenda di ricerca specifica.

Scalable oversight è il problema centrale che Leike aveva già articolato pubblicamente in precedenza: come si valuta il comportamento di un modello quando il modello stesso è più capace del valutatore umano? Per i sistemi attuali — un LLM che genera un email, un riassunto, un pezzo di codice di media complessità — un essere umano può ancora giudicare ragionevolmente se l'output è corretto. Ma cosa succede quando il modello produce dimostrazioni matematiche oltre la capacità del valutatore, o piani strategici con conseguenze a lungo termine non immediatamente verificabili?

L'approccio che Leike persegue combina più tecniche. Recursive reward modeling: usare AI per assistere i valutatori umani nel giudicare output di altri AI. Debate: far argomentare due AI istanze su lati opposti di una questione, con un valutatore umano che giudica il dibattito invece dell'output finale. Weak-to-strong generalization: addestrare un modello debole come supervisore di un modello forte, e studiare se e come il modello forte impari a essere onesto anche quando potrebbe "ingannare" il supervisore. Anthropic ha pubblicato lavori in tutte queste direzioni nel 2023-2024.

Il contesto dell'esodo: Sutskever, Leike, Schulman, Saunders

Le dimissioni di Leike non sono un evento isolato. Sono parte di una sequenza che, nei dodici mesi tra il novembre 2023 e l'autunno 2024, ha visto uscire da OpenAI quasi tutti i ricercatori più senior orientati alla safety. Ilya Sutskever, co-fondatore e chief scientist, ha lasciato il 14 maggio 2024 dopo essere stato coinvolto nel tentato licenziamento di Sam Altman del novembre 2023 e nel successivo rientro forzato del CEO. Daniel Kokotajlo, ricercatore governance, si era dimesso ad aprile 2024 rinunciando alla sua equity pur di poter parlare liberamente. William Saunders, ricercatore alignment, era uscito a febbraio. John Schulman, co-fondatore e inventore di PPO, ha seguito ad agosto 2024 dirigendosi anch'esso ad Anthropic.

Il pattern è leggibile come segnale strutturale. Quando una percentuale così alta dei ricercatori safety di un'organizzazione esce in dodici mesi, e quando le loro dichiarazioni pubbliche convergono su una critica della stessa direzione organizzativa — priorità ai prodotti, allocazione di risorse spostata fuori dalla ricerca fondamentale sull'allineamento, marginalizzazione del lavoro safety nelle decisioni di deployment — non si tratta di disaccordo individuale ma di divergenza sistemica.

Per chi osserva il campo, il caso Leike ha valore documentario. Il thread del 17 maggio ha reso pubblico ciò che molti sospettavano: che le promesse fatte al Superalignment Team al momento della fondazione non sono state mantenute, e che la pressione commerciale ha sovrastato l'agenda di ricerca a lungo termine. Anthropic beneficia di questo esodo — non per scelta strategica esterna, ma perché è diventato l'unico grande laboratorio frontier dove la safety è ancora trattata come missione primaria invece che come team di supporto al prodotto.

Link alla fonte originale

Jan Leike · jan.leike.name →

Sito personale con bibliografia completa, blog post sulla scalable oversight e archivio dei thread pubblici. EN.