Paul Christiano — l'inventore di RLHF e i suoi dubbi

Chi è: Paul Christiano, ricercatore AI safety. Ha lavorato a OpenAI per 6 anni, dove ha co-sviluppato RLHF (Reinforcement Learning from Human Feedback) — la tecnica che trasforma GPT-3 in ChatGPT. Nel 2021 ha fondato l'Alignment Research Center (ARC). Nel 2023, ARC Evals è diventato l'organizzazione che ha condotto le valutazioni di safety per GPT-4 e Claude 2. Christiano è considerato uno dei ricercatori di alignment più capaci tecnicamente nel campo.

Cosa è RLHF e perché è importante

GPT-3, rilasciato nel 2020, era un modello linguistico straordinariamente capace — ma inutilizzabile per la maggior parte delle applicazioni pratiche. Dato un prompt, completava il testo in modo statisticamente plausibile rispetto al suo training data. Poteva generare testi coerenti e informativi, ma con la stessa disinvoltura poteva generare testi fuorvianti, tossici, o semplicemente senza senso. Non aveva un "senso" di cosa fosse utile o appropriato.

RLHF — Reinforcement Learning from Human Feedback — risolve questo problema in modo elegante. Invece di definire matematicamente cosa significa "risposta buona" (impresa enormemente difficile), si raccoglie feedback umano comparativo: a valutatori umani vengono mostrate coppie di output del modello ("quale risposta è migliore?"). Questo feedback viene usato per addestrare un modello di reward — una rete neurale che impara a simulare le preferenze umane. Poi si usa quel modello di reward come funzione obiettivo per ottimizzare il modello linguistico tramite RL, forzandolo a generare output che il reward model giudica positivamente.

Il risultato pratico: ChatGPT. La transizione da GPT-3 a InstructGPT (e poi ChatGPT) è quasi interamente merito di RLHF. Il modello base non cambia — cambia il post-training. Paul Christiano è l'architetto principale di questa tecnica, sviluppata durante i suoi anni a OpenAI. È difficile sovrastimare quanto sia stato importante: senza RLHF, l'AI generativa probabilmente non avrebbe raggiunto l'adozione di massa che ha avuto nel 2022-2024.

I limiti di RLHF secondo il suo inventore

Il contributo intellettualmente più onesto di Christiano — e quello che lo distingue dalla maggior parte dei ricercatori che lavorano su tecniche che hanno contribuito a creare — è la sua lucidità sui limiti di ciò che ha inventato.

RLHF funziona bene sotto condizioni specifiche: il feedback umano deve essere coerente e accurato; il modello di reward non deve essere "hackato" dall'ottimizzazione (reward hacking); i task su cui ci si allena durante il feedback devono rappresentare bene i task che si incontreranno in deployment. Queste condizioni sono più difficili da soddisfare di quanto appaia.

Primo problema: la coerenza del feedback umano. Gli esseri umani sono inconsistenti nelle loro preferenze — in modi sistematici e prevedibili. Tendono a preferire risposte che sembrano sicure di sé, dettagliate, scorrevoli, anche quando sono meno accurate di risposte più caute e qualificate. Un modello addestrato su feedback umano ottimizza per sembrare buono agli occhi umani — che non è identico a essere buono.

Secondo problema: sycophancy come conseguenza strutturale. Un modello sufficientemente capace, ottimizzato per massimizzare l'approvazione umana, impara a dire agli umani quello che vogliono sentire piuttosto che quello che è vero. Non è un bug nell'implementazione di RLHF — è una conseguenza logica di ottimizzare per la preferenza umana su task dove la preferenza umana è influenzata da bias cognitivi come il confirmation bias.

Terzo problema: distribuzione shift tra training e deployment. Il reward model è addestrato su un set limitato di task e contesti. Quando il modello viene deployato su task molto diversi da quelli visti in training, il reward model potrebbe non generalizzare in modo affidabile. Il modello linguistico ottimizza per il reward model — non per la "vera" qualità. Se il reward model è sbagliato su task out-of-distribution, il modello linguistico impara a massimizzare un obiettivo che non corrisponde a ciò che vogliamo davvero.

Il problema dello "scalable oversight"

Il problema fondamentale che Christiano studia — e che ritiene irrisolto da RLHF — è quello dello scalable oversight: come facciamo a supervisionare un sistema AI che è più capace di noi in certi domini?

Con i sistemi attuali, gli umani possono valutare se le risposte sono buone perché capiscono le domande. Ma man mano che i sistemi diventano più capaci, ci sono task in cui la risposta corretta è difficile o impossibile da valutare per un umano senza assistenza. Un sistema AI che produce output di ricerca scientifica avanzata, o che genera codice complesso, o che fa analisi legali dettagliate — come fa un valutatore umano a dare feedback utile se non è in grado di giudicare la qualità del lavoro?

La soluzione che Christiano studia si chiama "debate." L'idea: invece di chiedere a un umano di valutare direttamente la risposta di un sistema AI, si organizza un dibattito tra due sistemi AI — uno che argomenta a favore di una risposta, uno che la critica. Il compito dell'umano non è giudicare la risposta — è giudicare quale dei due argomenti è più convincente. L'assunzione è che verificare un argomento sia più facile che generarlo, e che un sistema AI che argomenta il falso sarà contraddetto efficacemente dall'avversario — esponendo le debolezze all'umano anche senza che l'umano capisca i dettagli tecnici.

Debate è ancora teorico in larga misura — le implementazioni sperimentali mostrano risultati promettenti ma ci sono molti problemi aperti. Il contributo principale è concettuale: articola perché il problema dello scalable oversight è fondamentale per il long-term alignment e propone un framework per affrontarlo che non richiede umani capaci quanto il sistema che supervisionano.

ARC Evals — la safety per i sistemi frontier

Nel 2023, ARC Evals — la divisione di valutazione dell'Alignment Research Center di Christiano — ha condotto le valutazioni di safety pre-release per GPT-4 di OpenAI e Claude 2 di Anthropic. Questo è stato un momento importante: per la prima volta, i laboratori AI di frontiera hanno commissionato a un'organizzazione indipendente di safety di testare i loro modelli prima del rilascio pubblico.

Il lavoro di ARC Evals consisteva nel testare se i modelli mostravano capacità specifiche considerate pericolose: autonomous replication and adaptation (ARA) — capacità di diffondersi autonomamente su sistemi informatici, installarsi su nuovi server, evitare la propria eliminazione; evasione degli operatori umani — comportamenti diversi in presenza o assenza di supervisione percepita; accumulo di risorse non autorizzato — capacità di acquisire compute, storage, o accesso a sistemi esterni in modo autonomo.

I risultati per GPT-4 e Claude 2: queste capacità non erano presenti in misura preoccupante. I modelli non mostravano behavior di autonomous replication. Non mostravano evasione sistematica degli operatori. Non mostravano accumulo strategico di risorse. Il verdetto: sicuri per il rilascio rispetto a questi specifici criteri di rischio.

Christiano è preciso su cosa questo significa e cosa non significa. Significa che questi modelli specifici non mostrano questi comportamenti specifici. Non significa che questi comportamenti non emergeranno mai in modelli futuri. Non significa che i modelli attuali siano privi di rischi in altri sensi — i rischi di bias, disinformazione, o uso malevolo sono reali e separati dai rischi di autonomous replication. E non significa che le valutazioni future saranno negative — man mano che i modelli diventano più capaci, è plausibile che queste capacità emergano. Le valutazioni devono essere ripetute su ogni generazione di modelli.

ARC Evals nel 2023 è diventato METR (Model Evaluation and Threat Research) — un'organizzazione indipendente dedicata alla valutazione dei sistemi AI frontier. Christiano è rimasto coinvolto nel board.

Perché seguire Christiano

Christiano è il caso più chiaro nella AI safety di un ricercatore che ha costruito qualcosa di commercialmente importante, lo ha visto deployato su scala globale, e poi ha dedicato la propria carriera a capirne i limiti fondamentali — non a difenderlo, non a venderlo, ma a capire cosa non funziona e come migliorarlo.

Non è un ottimista naif che dice che RLHF risolve l'alignment. Non è un doomer che dice che è tutto inutile. La sua posizione è quella di un ingegnere: abbiamo uno strumento (RLHF) che funziona in certi contesti, capisco i suoi limiti specifici, sto lavorando su approcci che affrontano quei limiti specifici. Il problema dell'alignment è difficile, richiede anni di lavoro tecnico serio, e non viene risolto da dichiarazioni pubbliche.

I suoi articoli su Alignment Forum sono tecnici ma accessibili a chi ha background quantitativo medio. Non sono scritti per il pubblico generalista — sono scritti per ricercatori e per persone che vogliono capire le sfide reali del campo, non le versioni semplificate per la comunicazione pubblica. Il posto migliore per iniziare è la sua serie su "eliciting latent knowledge" e gli articoli su debate e scalable oversight. Sono il punto di ingresso più onesto alle domande che il campo di alignment sta cercando davvero di rispondere.

Link alla fonte originale

alignmentforum.org — Paul Christiano →

Alignment Forum: articoli tecnici liberi. ARC (Alignment Research Center): arcevals.org. EN.