Superalignment — OpenAI Promette di Risolvere l'Allineamento in 4 Anni

Chi sono: Ilya Sutskever, co-fondatore e Chief Scientist di OpenAI fino al 2024, tra i massimi esperti mondiali di deep learning (tesi di dottorato con Hinton, paper fondamentale su AlexNet). Jan Leike, ricercatore di AI safety proveniente da DeepMind, specializzato in reinforcement learning e allineamento. Insieme guidano il team Superalignment annunciato nel luglio 2023. Entrambi lasceranno OpenAI entro un anno dall'annuncio.

L'annuncio di luglio 2023

Il 5 luglio 2023, OpenAI pubblica sul proprio blog un post firmato da Ilya Sutskever e Jan Leike: "Introducing Superalignment." L'ambizione dichiarata è massima: il team lavorerà a costruire metodi tecnici per allineare una superintelligenza — un sistema AI più capace degli umani in praticamente tutti i domini cognitivi — entro quattro anni.

Le risorse promesse sono concrete: il 20% della capacità computazionale di OpenAI dedicata a questo progetto, $130 milioni di budget pluriennale, e l'intenzione di assumere decine dei migliori ricercatori di safety al mondo. Il post identifica esplicitamente la sfida: i metodi di allineamento attuali (RLHF, instruction following, constitutional AI) funzionano bene su modelli attuali perché gli umani possono valutare i loro output. Con una superintelligenza, gli umani non sarebbero più in grado di valutare molti degli output — il modello sarebbe più capace di noi nel ragionamento scientifico, nella strategia, nel coding. Come facciamo a sapere se la superintelligenza persegue effettivamente i nostri obiettivi se non siamo in grado di verificare il suo lavoro?

Il problema dello scalable oversight

Il frame tecnico centrale del progetto Superalignment è lo scalable oversight: come supervisionare sistemi più capaci di noi. Questo non è un problema nuovo nella AI safety — Paul Christiano ad ARC, Geoffrey Irving a DeepMind, e altri avevano già pubblicato lavori teorici sul tema. L'annuncio di OpenAI lo porta al centro della roadmap di uno dei laboratori più importanti.

L'approccio proposto si articola in tre filoni. Primo: usare AI per aiutare gli umani a valutare output complessi — amplificazione dell'intelligenza umana per colmare il gap di capacità. Se un modello AI può aiutare un ricercatore umano a capire un ragionamento matematico complesso, il ricercatore può dare feedback più accurato al sistema che ha prodotto quel ragionamento.

Secondo: addestramento automatizzato dell'interpretabilità — sviluppare metodi per comprendere il funzionamento interno dei modelli senza richiedere che ogni analisi sia condotta da umani manualmente. Se un modello AI può aiutare a identificare circuiti interni problematici in un altro modello, la supervisione scala.

Terzo: valutazione automatizzata — sviluppare evals che un sistema AI aiuta a progettare e condurre, riducendo la dipendenza dalla supervision umana diretta per ogni test.

Il paradosso riconosciuto esplicitamente nel post: stiamo usando AI per risolvere il problema dell'allineamento dell'AI. Se usiamo un modello AI per supervisionare un altro modello AI più capace, dobbiamo essere sicuri che il primo modello sia allineato. Questo crea una catena di fiducia che ha una base — il primo modello che giudichiamo affidabile con metodi manuali — e poi si estende verso modelli via via più capaci. La robustezza di questa catena è la sfida aperta.

Ilya Sutskever: il peso simbolico della guida

Sutskever che guida il team non è casuale. È co-fondatore di OpenAI, ha la credibilità tecnica più alta dell'organizzazione, e la sua preoccupazione per la sicurezza dell'AI era nota dal 2015 — era tra le motivazioni dichiarate per fondare OpenAI come non-profit. Avere Sutskever associare il proprio nome al progetto inviava un segnale preciso: OpenAI tratta l'allineamento come problema tecnico serio, non come PR.

Questa scelta aveva però un rischio implicito: se Sutskever avesse lasciato OpenAI, il progetto avrebbe perso il suo padrino istituzionale più importante. E così è andata.

Novembre 2023: il colpo di stato e le sue conseguenze

Il 17 novembre 2023, il board di OpenAI vota la rimozione di Sam Altman come CEO — un evento senza precedenti nella storia tech. Sutskever è tra i membri del board che votano la destituzione. Nei giorni successivi, mentre OpenAI implode e quasi tutti i dipendenti minacciano di dimettersi, Sutskever cambia posizione e firma la lettera che chiede il reintegro di Altman. Altman torna. Il board viene ricostituito. Sutskever rimane, ma la sua posizione è indebolita.

Cosa è successo esattamente nei corridoi di OpenAI in quei cinque giorni non è mai stato chiarito pubblicamente. Le speculazioni abbondano — alcuni reportage suggeriscono che le preoccupazioni di Sutskever sulla direzione della sicurezza di OpenAI siano state centrali nel voto di rimozione. Ciò che è certo: i mesi successivi mostrano segnali di tensione crescente tra chi spinge per safety e chi spinge per velocità di deployment.

Maggio 2024: Jan Leike si dimette con lettera pubblica

Il 17 maggio 2024, Jan Leike annuncia le sue dimissioni da OpenAI con un thread su X (Twitter). La lettera è inusualmente critica per gli standard della Silicon Valley, dove le dimissioni sono tipicamente diplomatiche. Leike scrive che OpenAI ha sistematicamente privilegiato lo "shipping" di prodotti rispetto alla safety: i team di safety erano sovraccarichi di lavoro, il compute per la ricerca di safety era difficile da ottenere, le preoccupazioni sulla sicurezza dei modelli non ricevevano la priorità necessaria.

La citazione più commentata: "Safety culture and processes have taken a back seat to shiny products." Leike si unisce ad Anthropic poche settimane dopo. La sua partenza è letta come la sconferma più credibile dell'impegno di OpenAI sulla safety — non perché venga da un critico esterno, ma perché viene dall'uomo che aveva co-diretto Superalignment.

Maggio 2024: Sutskever lascia OpenAI

Il 14 maggio 2024, Ilya Sutskever annuncia la sua uscita da OpenAI con un post su X sobrio e diplomatico. Non dà spiegazioni pubbliche nel dettaglio — dice solo che è entusiasta per ciò che farà dopo. A giugno 2024 fonda Safe Superintelligence (SSI) con Daniel Gross e Daniel Levy: una startup focalizzata esclusivamente sulla sicurezza dell'AI, senza prodotti commerciali, senza fretta di deployment. La premessa implicita è chiara: non è possibile fare safety seria all'interno di un laboratorio commerciale con pressioni di prodotto.

Il team Superalignment nel 2024

Con la partenza di entrambi i suoi co-fondatori, il team Superalignment come entità distinta cessa sostanzialmente di esistere. OpenAI continua a fare ricerca sulla safety — il team di safety policy, il team di red teaming, la ricerca sull'interpretabilità — ma la struttura centralizzata con risorse dedicate del 20% del compute non sopravvive.

OpenAI non ha pubblicato una valutazione pubblica di cosa il team ha prodotto nel suo anno di esistenza. La ricerca pubblicata dal team include lavori su scalable oversight e weak-to-strong generalization — risultati interessanti, ma distanti dall'obiettivo dichiarato di "risolvere l'allineamento per la superintelligenza entro 4 anni".

Cosa rimane

La storia di Superalignment è un caso di studio su come le organizzazioni gestiscono le tensioni tra ambizioni di sicurezza e pressioni commerciali. L'annuncio del luglio 2023 era genuino nelle sue intenzioni — Sutskever e Leike credevano nel progetto. Ma la struttura organizzativa di OpenAI, con le sue tensioni tra board, investitori, management e team tecnici, non ha sostenuto quelle intenzioni abbastanza a lungo. La promessa dei quattro anni — che scade nel 2027 — è ora in dubbio senza il team che avrebbe dovuto mantenerla.

Il campo guarda a questa storia con attenzione, perché ripete un pattern: laboratori AI annunciano impegni sulla safety, li associano a figure credibili, poi le figure credibili lasciano. L'impegno rimane sulla carta. La domanda aperta è se questo sia un problema risolvibile con strutture organizzative migliori, o se sia una tensione fondamentale tra la logica del mercato e la logica della safety.

Link alla fonte originale

OpenAI Blog — Introducing Superalignment →

Post originale di Sutskever e Leike, luglio 2023. La lettera di dimissioni di Leike è disponibile sul suo profilo X. EN.