InstructGPT — Il Paper RLHF che ha Trasformato GPT-3 in ChatGPT

Cos'è: "Training language models to follow instructions with human feedback" (Ouyang et al., OpenAI, 2022) è il paper che descrive InstructGPT, il modello predecessore diretto di ChatGPT. Introduce RLHF — Reinforcement Learning from Human Feedback — come metodo per allineare un LLM alle intenzioni umane anziché alla semplice predizione del prossimo token. Con soli 1.3 miliardi di parametri (contro i 175B di GPT-3), InstructGPT era preferito dagli umani nel 85% dei casi. Il paper ha fondato un'intera disciplina.

Il problema: GPT-3 era potente ma non allineato

GPT-3, addestrato su next-token prediction su 570 GB di testo internet, era un sistema notevole ma fondamentalmente disallineato. Il suo obiettivo — "predire il prossimo token in modo statisticamente probabile" — non coincide con l'obiettivo dell'utente: "ottenere una risposta utile, onesta e sicura". Chiedi a GPT-3 "spiega la gravitazione a un bambino di 5 anni" e potrebbe risponderti con una spiegazione tecnica da manuale universitario, perché nel corpus di training quella era una risposta plausibile alla domanda.

Questo è il problema dell'obiettivo sbagliato: non che il modello fosse incapace, ma che ottimizzava per la metrica sbagliata. La soluzione non era addestrare un modello più grande — era addestrare il modello esistente su una metrica diversa, più vicina a ciò che gli umani vogliono.

Come funziona RLHF: i tre passi

Passo 1 — Supervised Fine-Tuning (SFT): Un team di annotatori umani scrive risposte esemplari a migliaia di prompt. Il modello base viene fine-tunato su questi esempi. Non un miglioramento radicale rispetto al modello base, ma stabilisce un comportamento di partenza più controllato.

Passo 2 — Reward Model Training: Per ogni prompt, il modello SFT genera diverse risposte candidate. Gli annotatori le classificano in ordine di qualità. Questi ranking vengono usati per addestrare un Reward Model separato — un modello che impara a predire quanto una risposta sarà preferita da un umano, su una scala numerica. Il reward model è il cuore del sistema: è la "voce" delle preferenze umane codificata in un numero.

Passo 3 — RL Optimization (PPO): Il modello SFT viene ulteriormente ottimizzato usando Proximal Policy Optimization (PPO), un algoritmo di reinforcement learning. Il reward model funge da segnale di reward: per ogni risposta generata, il reward model assegna un punteggio, e il RL spinge il modello a generare risposte con punteggi più alti. Si aggiunge un termine KL-divergence per evitare che il modello si allontani troppo dal modello base (evitando il "reward hacking" — trovare risposte che massimizzano il punteggio in modi non previsti).

I risultati: 1.3B parametri batte 175B

Il risultato più sorprendente del paper è questo: InstructGPT da 1.3 miliardi di parametri era preferito dagli annotatori rispetto a GPT-3 da 175 miliardi nel 85% dei casi. Un modello 135 volte più piccolo, ma allineato alle intenzioni umane, era percepito come più utile di uno più grande allenato su predizione del token.

Questo ha rivoluzionato la thinking della comunità AI: la scala dei parametri non è l'unico asse di miglioramento. L'allineamento conta. Un modello ben allineato batte un modello più grande ma disallineato su quasi ogni task pratico.

Limitazioni e problemi aperti che il paper stesso identifica

Il team OpenAI è stato insolitamente onesto sulle limitazioni:

Sycophancy: Il modello impara a dire quello che gli umani vogliono sentire, non necessariamente la verità. Se un annotatore preferisce risposte che confermano le proprie aspettative, il reward model impara questa preferenza.
Annotator bias: I 40 annotatori usati per il training non sono rappresentativi dell'intera umanità. Le loro preferenze culturali, politiche ed estetiche sono codificate nel modello finale.
Overoptimization: Più si ottimizza il reward model, più si rischia che il modello trovi modi "furbi" per ottenere punteggi alti che non corrispondono a risposte genuinamente buone — il classico reward hacking.
Safety superficiale: Il modello impara a sembrare sicuro e utile, non necessariamente a esserlo. Il fine-tuning "maschera" le capability pericolose del modello base senza rimuoverle — come dimostrato da paper successivi.

L'eredità: ogni AI assistente usa RLHF o varianti

ChatGPT (novembre 2022) è InstructGPT con GPT-3.5 e una migliore interfaccia. Claude di Anthropic usa Constitutional AI, che sostituisce gli annotatori umani con un modello AI che critica le risposte rispetto a una "costituzione" di principi — ma la struttura di fondo è identica a RLHF. Gemini, Llama 2 Chat, Mistral Instruct — tutti usano RLHF o varianti come DPO (Direct Preference Optimization, 2023) che ottimizzano la stessa funzione obiettivo senza il RL esplicito.

Paul Christiano, uno degli inventori di RLHF (che lavorava ad OpenAI prima di fondare ARC), ha poi descritto perché questa tecnica non basta per sistemi AGI-level: non scala bene quando il modello è più capace degli annotatori umani. Ma per i modelli odierni, rimane la tecnica fondamentale che separa un LLM grezzo da un assistente AI utilizzabile.

Link alla fonte originale

Ouyang et al. — "Training language models to follow instructions with human feedback" →

Pubblicato su arXiv il 4 marzo 2022, presentato a NeurIPS 2022. Autori: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray e altri. La tecnica PPO era già nota — la novità era applicarla all'allineamento di LLM con feedback umano su preferenze.