Weak-to-Strong Generalization — OpenAI Studia Come Supervisionare AI Piu Intelligenti di Noi

Cos'e: "Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision" e il primo paper di ricerca pubblicato dal team Superalignment di OpenAI, a dicembre 2023. Autori principali: Collin Burns, Pavel Izmailov, Ilya Sutskever. Il paper propone un setup empirico per studiare il problema dello scalable oversight: come si supervisiona un modello AI piu capace di chi lo supervisiona? La risposta empirica: usando GPT-4 come "studente" supervisionato da GPT-2 come "insegnante", si recupera solo circa il 50% del gap di performance tra i due modelli — il problema e reale, non risolto, e quantificabile.

Il problema dello scalable oversight

Il problema fondamentale dell'alignment a lungo termine puo essere formulato in modo semplice: come facciamo a fornire un segnale di supervisione utile a un sistema AI che e piu capace di noi nel dominio che stiamo cercando di insegnargli? La forma classica di addestramento — un essere umano valuta gli output del modello, e il modello viene ottimizzato per produrre output che gli umani valutano positivamente — funziona solo se l'umano e in grado di giudicare la qualita dell'output. Cosa succede quando il modello produce output che l'umano non ha le competenze per valutare?

Il problema non e teorico. Gia oggi, GPT-4 e Claude producono output (codice complesso, analisi legali, ragionamento matematico avanzato) che la maggior parte degli umani non e in grado di valutare con sicurezza. Man mano che i sistemi diventano piu capaci, la frazione di output che gli umani possono valutare direttamente diminuisce. In un futuro ipotetico con sistemi molto piu capaci degli umani in domini critici, il problema diventa centrale: non possiamo dire al sistema cosa vogliamo se non capiamo i dettagli di quello che produce.

Paul Christiano e altri ricercatori hanno discusso questo problema concettualmente per anni — debate, recursive reward modeling, iterated amplification sono tutte proposte di framework per affrontarlo. Il contributo di "Weak-to-Strong Generalization" non e proporre una soluzione nuova, ma rendere il problema empiricamente studiabile con i sistemi disponibili oggi.

Il setup sperimentale: GPT-2 supervisiona GPT-4

L'idea del paper e elegante. Non possiamo studiare direttamente il problema "umano supervisiona superintelligenza" perche la superintelligenza non esiste ancora. Possiamo pero studiare un analogo: un modello debole (es. GPT-2) supervisiona un modello forte (es. GPT-4) sullo stesso task. Se il problema "supervisore meno capace" esiste, dovrebbe manifestarsi anche in questo setup. E possiamo misurare quanto del gap di capability tra il forte e il debole viene effettivamente recuperato dalla supervisione weak-to-strong.

Il setup concreto: si prende un task per cui esiste un ground truth chiaro (es. classificazione su benchmark NLP). Si misura la performance di GPT-2 al task: chiamiamola la "weak performance". Si misura la performance di GPT-4 fine-tuned sul task con ground truth corretto: chiamiamola la "strong ceiling". Il gap tra le due e quanto piu capace e GPT-4 di GPT-2 sul task. Poi si fa l'esperimento centrale: si usa GPT-2 (con le sue performance limitate) per generare labels per il fine-tuning di GPT-4. GPT-4 viene addestrato non sulla verita, ma su quello che GPT-2 pensa essere la verita — incluse tutte le inaccuratezze di GPT-2.

La domanda misurabile diventa: quanto bene performa il GPT-4 addestrato su labels-di-GPT-2, rispetto al GPT-4 addestrato su ground truth? Se performasse esattamente come GPT-2, significherebbe che la supervisione weak-to-strong non aggiunge nulla — il modello forte si limita a imitare il modello debole. Se performasse come il GPT-4 con ground truth, significherebbe che il modello forte "vede attraverso" gli errori del supervisore e impara la verita comunque. La realta sta nel mezzo.

I risultati: ~50% del gap recuperato

Il risultato empirico centrale: nel setup base, GPT-4 addestrato su labels di GPT-2 recupera circa il 50% del gap di performance tra GPT-2 e GPT-4 addestrato su ground truth. In altre parole, il modello forte performa meglio del modello debole anche quando il modello debole e la sua unica fonte di supervisione — ma non recupera tutta la performance che otterrebbe con supervisione corretta. Questo gap residuo del 50% e una misura empirica del problema dello scalable oversight: e il "costo" che paghiamo quando non possiamo fornire ground truth e dobbiamo affidarci a un supervisore imperfetto.

Il risultato per se non e ne tragico ne riassicurante. Non e tragico perche il modello forte recupera una parte significativa del gap: la supervisione debole non e inutile. Non e riassicurante perche il gap residuo e considerevole e cresce in modo non banale al crescere del divario di capability tra weak e strong. Su task piu difficili e con divari di capability piu grandi, la frazione recuperata diminuisce.

Il paper esplora anche tecniche per migliorare la frazione recuperata. La piu efficace nei loro esperimenti e un auxiliary loss che incoraggia il modello forte a fare predizioni confident e coerenti, anche quando il supervisore debole e incerto o sbagliato. Con questa tecnica, la frazione recuperata sale in alcuni esperimenti fino al 70-80%. E un miglioramento significativo ma non risolutivo — e la tecnica e specifica a questo setup, non generalizzabile direttamente a contesti reali di alignment.

Critiche e limiti del setup

Il paper ha ricevuto attenzione significativa ma anche critiche metodologiche serie. La critica principale: il setup GPT-2-su-GPT-4 non e un buon analogo del problema umano-supervisiona-superintelligenza. GPT-2 e un modello vecchio con capacita ristrette ma comparabili in natura a GPT-4 — entrambi sono transformer addestrati su prediction next-token, condividono molti bias e errori sistematici. La superintelligenza ipotetica avrebbe capacita qualitativamente diverse, non solo quantitativamente maggiori. Il transfer dei risultati e incerto.

La seconda critica: i task usati sono benchmark di classificazione, dove esiste ground truth chiaro. Nei contesti reali di alignment, il problema non e tanto che gli umani non sanno la verita — e che la verita stessa e contestata o ambigua. Misurare l'oversight su task con ground truth oggettivo aggira la difficolta concettuale principale del problema reale.

La terza critica viene dall'interno della stessa comunita alignment. Alcuni ricercatori, incluso Jan Leike (poi co-lead del team Superalignment), hanno notato che il paper documenta un problema reale ma non offre molto verso una soluzione robusta. Le tecniche proposte per migliorare il recupero sono incrementali, specifiche al setup, e non e chiaro come scalino. Il valore del paper e principalmente quello di rendere il problema empirico — di fornire un benchmark su cui future tecniche di scalable oversight possono essere misurate, non di averlo risolto.

Il contesto: Superalignment, novembre 2023, dimissioni

Il paper va letto nel contesto temporale specifico in cui e stato pubblicato. Dicembre 2023: il team Superalignment di OpenAI, fondato a luglio 2023 con l'obiettivo dichiarato di "risolvere il problema tecnico dell'alignment di sistemi superintelligenti in 4 anni" e con il 20% del compute di OpenAI dedicato, e relativamente nuovo. Co-lead: Ilya Sutskever e Jan Leike. Il paper "Weak-to-Strong Generalization" e il primo output significativo del team, e ha l'obiettivo simbolico di dimostrare che il team produce ricerca utile.

Solo poche settimane prima della pubblicazione, novembre 2023, era avvenuto il drama del board di OpenAI — il licenziamento e reintegro di Sam Altman, con Sutskever nel ruolo controverso di chi aveva votato per la rimozione e poi cambiato posizione. Il paper viene pubblicato in un periodo in cui Sutskever e politicamente isolato all'interno dell'azienda. Maggio 2024: Sutskever lascia OpenAI. Pochi giorni dopo, anche Jan Leike lascia, con dichiarazioni pubbliche critiche verso la priorita data alla safety dall'azienda. Il team Superalignment viene di fatto disperso.

Letto retrospettivamente, "Weak-to-Strong Generalization" e l'ultimo output significativo del team Superalignment di OpenAI prima della sua dissoluzione. Il follow-up che ci si sarebbe aspettato — paper successivi che approfondivano il framework, lo applicavano a task piu complessi, miglioravano le tecniche di recovery — non e arrivato dallo stesso gruppo. Sutskever ha portato il focus su scalable oversight con se nella fondazione di Safe Superintelligence Inc. nel giugno 2024.

Cosa rimane del paper

Indipendentemente dalle vicende organizzative, il contributo intellettuale di "Weak-to-Strong Generalization" rimane. Per la prima volta, il problema dello scalable oversight ha un setup empirico standard su cui diverse tecniche possono essere misurate e comparate. Future ricerche, in OpenAI o altrove, possono partire da questo benchmark per proporre miglioramenti. La pubblicazione del setup completo (con codice e dati) significa che la ricerca non muore con la dissoluzione del team.

Il paper ha anche contribuito a rendere il problema visibile a una comunita piu ampia. Prima del paper, lo scalable oversight era discusso principalmente in cerchi specializzati (Alignment Forum, MIRI, papers tecnici). Dopo il paper, e diventato un riferimento concreto in articoli generalisti e in discussioni di policy. La frase "supervisione di sistemi piu capaci di noi" ha acquisito un significato empirico, non solo speculativo.

Il risultato numerico — circa il 50% del gap recuperato nel setup base — e diventato un riferimento comune nelle discussioni sull'alignment. Non e un numero universale, ovviamente, ma e un primo punto di riferimento. Se future ricerche mostrassero che con tecniche migliori si puo arrivare al 90% del gap, sarebbe un risultato significativo. Se invece il gap si ampliasse al crescere del divario di capability tra weak e strong, sarebbe un segnale di preoccupazione. Il paper apre una linea di ricerca quantitativa che non esisteva prima.

Link alla fonte originale

OpenAI · Weak-to-Strong Generalization →

Blog post con summary, EN. Paper completo su arXiv: arxiv.org/abs/2312.09390. Repository con codice e dati: github.com/openai/weak-to-strong.