Salta al contenuto
AImpact
IT EN

Articolo · Profilo e pensiero

John Schulman — L'Inventore di PPO che ha Lasciato OpenAI per l'Allineamento

Fonte originale: John Schulman · Google Scholar · pubblicazioni 2015-2024 — sintesi e rielaborazione in parole proprie.

CondividiLinkedInX

Chi è: John Schulman è un ricercatore di machine learning, co-fondatore di OpenAI e inventore dell'algoritmo PPO (Proximal Policy Optimization). Con Paul Christiano ha sviluppato RLHF (Reinforcement Learning from Human Feedback), la tecnica che ha reso i grandi modelli linguistici utili e controllabili. Nel 2024 ha lasciato OpenAI per Anthropic, citando esplicitamente la volontà di dedicarsi più direttamente alla ricerca sulla safety dei sistemi AI.

L'algoritmo PPO e perché è fondamentale

Per capire il peso specifico di John Schulman nel panorama AI è necessario partire da PPO — Proximal Policy Optimization — pubblicato nel 2017. L'algoritmo è diventato il metodo standard per il reinforcement learning in una varietà sorprendentemente ampia di contesti: dai videogiochi di Atari alla robotica, fino — e qui sta l'impatto più visibile — all'addestramento dei grandi modelli linguistici tramite RLHF.

Il problema che PPO risolve è fondamentale in RL: come aggiornare la policy (la strategia del modello) a partire dal feedback ricevuto senza fare aggiornamenti così grandi da destabilizzare l'apprendimento. Prima di PPO, TRPO (Trust Region Policy Optimization, anche questo di Schulman) offriva garanzie teoriche solide ma era computazionalmente costoso. PPO ottiene risultati comparabili con un'implementazione molto più semplice: vincola l'aggiornamento della policy tramite un termine di clipping sulla funzione obiettivo, evitando che i gradienti portino la policy troppo lontano dalla versione precedente in un singolo passo.

In pratica: PPO è robusto, funziona bene su una gamma ampia di iperparametri senza messa a punto fine, è facilmente parallelizzabile. Queste caratteristiche lo hanno reso il cavallo di battaglia del reinforcement learning applicato, incluso il phase di fine-tuning dei modelli linguistici. Ogni volta che un LLM viene addestrato con RLHF — il che comprende GPT-3.5, GPT-4, Claude, Gemini — PPO è parte del processo.

RLHF: la firma intellettuale di Schulman e Christiano

Reinforcement Learning from Human Feedback non è un'invenzione monolitica attribuibile a una sola persona — è un insieme di tecniche sviluppate progressivamente da più ricercatori. Ma la versione moderna, quella che ha trasformato GPT-3 in ChatGPT, ha in Schulman e Paul Christiano i suoi architetti principali, con contributi importanti di Ryan Lowe, Jan Leike, e altri del team OpenAI.

L'intuizione centrale di RLHF è elegante: invece di specificare formalmente la funzione di reward (cosa vogliamo che il modello faccia), si raccoglie feedback comparativo da valutatori umani su coppie di output. Questo feedback addestra un reward model — una rete neurale che impara a predire le preferenze umane. Il reward model viene poi usato come segnale per ottimizzare il modello linguistico tramite RL, tipicamente con PPO.

Il risultato non è banale: si ottiene un modello che genera output allineati con le preferenze umane senza che sia stato necessario codificare esplicitamente quelle preferenze in una funzione matematica. L'allineamento emerge dall'apprendimento su feedback umano reale. Questa tecnica, scalata su dataset di feedback enormi e su modelli con miliardi di parametri, è ciò che ha reso ChatGPT conversazionalmente utile nel 2022.

Il ruolo fondativo in OpenAI

Schulman è stato tra i fondatori di OpenAI nel 2015, insieme a Sam Altman, Greg Brockman, Ilya Sutskever, Elon Musk e altri. La sua carriera in OpenAI copre quasi un decennio e coincide con alcuni dei momenti più definenti dell'organizzazione: lo sviluppo di algoritmi RL fondamentali, la costruzione dell'infrastruttura di training per i grandi modelli, e la direzione tecnica del progetto ChatGPT.

Nell'organigramma tecnico di OpenAI, Schulman era uno dei ricercatori più senior — con autonomia significativa sulla direzione della ricerca e accesso diretto alle decisioni su quali progetti perseguire. Non era un dirigente nel senso commerciale del termine; il suo dominio era la ricerca fondamentale e il training dei modelli.

In questo contesto, la sua partenza nell'agosto 2024 ha avuto un peso specifico diverso da un normale cambio di lavoro nel settore. Schulman non era un contributore periferico — era parte del nucleo tecnico fondativo dell'organizzazione.

Agosto 2024: la partenza e la motivazione dichiarata

Nell'agosto 2024, Schulman ha annunciato pubblicamente la sua partenza da OpenAI e il suo ingresso in Anthropic. La motivazione che ha comunicato è stata diretta: voleva dedicare più tempo alla ricerca sulla AI safety, e sentiva che in Anthropic avrebbe avuto l'opportunità di lavorare più direttamente su questi problemi.

Questa dichiarazione va letta con attenzione al contesto. OpenAI nell'estate 2024 era al centro di una serie di uscite di alto profilo legate proprio alla safety: Jan Leike, responsabile del team Superalignment, si era dimesso a maggio dichiarando pubblicamente che la cultura di OpenAI aveva smesso di prioritizzare la safety rispetto allo sviluppo commerciale del prodotto. Ilya Sutskever, co-fondatore e chief scientist, aveva lasciato ad aprile. Il team Superalignment — formato nel 2023 con grandi annunci e promesse di dedicare il 20% della compute alla ricerca sull'allineamento dei sistemi superintelligenti — era stato di fatto smantellato.

In questo scenario, la partenza di Schulman non è un evento isolato. È parte di un pattern: ricercatori con orientamento forte verso la safety che lasciano OpenAI verso destinazioni — Anthropic, organizzazioni nonprofit, accademia — dove il mandato sulla safety è più centrale alla missione organizzativa.

Il pattern più ampio: safety brain drain da OpenAI

Il 2023-2024 ha visto un exodus significativo di ricercatori safety-oriented da OpenAI. Oltre a Leike, Sutskever, e Schulman, sono usciti William Saunders (ricercatore alignment), Daniel Kokotajlo (aveva lavorato su governance e forecasting, ha rinunciato alla equity per poter parlare liberamente), e vari altri con background in safety e interpretability.

Il pattern è interpretabile in due modi. La versione ottimistica: i talenti si diffondono nell'ecosistema, rafforzando organizzazioni come Anthropic, METR, ARC, e contribuendo a una comunità di ricerca sulla safety più distribuita. La versione pessimistica: l'organizzazione che ha più compute, più accesso ai modelli frontier, e più potere di determinare il ritmo dello sviluppo AI sta perdendo sistematicamente le persone più orientate a frenare i rischi — mentre accelera sullo sviluppo commerciale.

Entrambe le interpretazioni hanno elementi di verità. Anthropic beneficia dell'arrivo di ricercatori come Schulman, che portano competenze tecniche fondamentali e motivazione genuina verso la safety. Allo stesso tempo, la concentrazione del potere di sviluppo in OpenAI rimane, e quella concentrazione si sposta progressivamente verso una cultura più orientata al prodotto.

Per chi segue l'AI safety come campo, Schulman è un segnale di quanto il dibattito sulla cultura dei laboratori AI non sia astratto. Le decisioni su chi lavora dove, su quali progetti con quale autonomia, determinano in modo concreto quali domande vengono considerate urgenti e quali vengono posticipate.


Link alla fonte originale

John Schulman · Google Scholar →

Pubblicazioni accademiche di Schulman: PPO, TRPO, RLHF e altri contributi fondamentali. EN.