Process Reward Models — Premiare il Processo, Non Solo il Risultato

Cos'è: Paper di Hunter Lightman, Vineet Kosaraju, Yura Burda e altri ricercatori OpenAI, pubblicato su arXiv il 31 maggio 2023 con titolo "Let's Verify Step by Step". Introduce in modo sistematico la distinzione tra Process Reward Model (PRM) — un modello che valuta la correttezza di ogni passo intermedio del ragionamento — e Outcome Reward Model (ORM), che valuta solo la risposta finale. Mostra che il PRM è molto più efficace per addestrare LLM a risolvere problemi matematici complessi, e rilascia pubblicamente il dataset PRM800K. È il fondamento concettuale diretto della famiglia o1.

Il setup: ORM vs PRM

Il problema operativo affrontato dal paper è quello di scegliere, fra molte chain-of-thought generate da un LLM, la più affidabile. Dato un problema matematico difficile, GPT-4 può generare 100 soluzioni; alcune saranno corrette, molte sbagliate. Il "best-of-N" prevede di selezionare la soluzione con punteggio più alto secondo un reward model. La domanda è: che tipo di reward model funziona meglio?

L'Outcome Reward Model (ORM) riceve in input il problema e l'intera soluzione, produce un singolo scalare che stima la probabilità che la risposta finale sia corretta. È addestrato su esempi in cui solo la risposta finale è etichettata. È semplice da costruire — basta sapere se la risposta è giusta. Il Process Reward Model (PRM) riceve in input il problema e una soluzione passo per passo, e produce un punteggio per ogni singolo passo intermedio. Lo score della soluzione complessiva è derivato (tipicamente il prodotto o il minimo) dai punteggi dei singoli passi. È molto più costoso da addestrare: richiede annotatori umani che valutino ogni passaggio del ragionamento.

PRM800K: il dataset

Il contributo materiale principale del paper è PRM800K, un dataset di 800.000 etichette di correttezza a livello di singolo passo, prodotte da annotatori umani su soluzioni generate da GPT-4 a problemi del benchmark MATH. Ogni soluzione viene scomposta in step (tipicamente uno per riga); ogni step riceve un'etichetta tra positive (passo corretto e utile), negative (passo errato o fuorviante), neutral (passo non chiaro o irrilevante ma non sbagliato). Le annotazioni sono prodotte da un team di lavoratori esperti formati specificamente sul reasoning matematico.

Il dataset è stato rilasciato pubblicamente su GitHub e Hugging Face. È diventato uno dei dataset di riferimento per la ricerca su reasoning verification, riusato da decine di paper successivi e replicato in versioni più grandi (Math-Shepherd, OmegaPRM, ecc.). La scelta di OpenAI di pubblicarlo è stata, retrospettivamente, uno dei contributi più generosi alla community ML — ha permesso a tutta la ricerca downstream di partire da una base condivisa.

I risultati: PRM vince in modo netto

Sulla MATH dataset, usando best-of-N selection con N=1860 soluzioni candidate generate da GPT-4, il PRM raggiunge il 78,2% di accuratezza nella selezione della soluzione corretta. L'ORM, applicato sullo stesso set, raggiunge il 72,4%. La differenza di quasi 6 punti percentuali è significativa, e rappresenta lo state-of-the-art al momento della pubblicazione. Su sottosezioni di MATH di difficoltà più alta (problemi olimpici) il vantaggio del PRM aumenta — fino a 10 punti percentuali — perché su ragionamenti lunghi è più probabile che uno step intermedio errato porti a una risposta sbagliata, e il PRM lo intercetta.

Il paper analizza anche la natura degli errori. Le soluzioni che l'ORM seleziona erroneamente sono spesso "fortunate": il modello sbaglia un passaggio ma per coincidenza arriva alla risposta giusta, oppure usa un ragionamento confuso che però approda al numero corretto. Il PRM rifiuta queste soluzioni, perché identifica esplicitamente lo step problematico. Questo significa che il PRM non si limita a migliorare l'accuracy — produce ragionamenti più verificabili, più adatti come dati di training per modelli successivi.

Da PRM a o1: scalable oversight e reward shaping

L'impatto teorico del paper si misura su due assi. Il primo è il concetto di scalable oversight: man mano che i sistemi AI affrontano task più complessi, valutare la sola risposta finale diventa inadeguato; valutare i singoli passi è più facile per gli umani e più informativo per il training. Un essere umano può non sapere se un risultato matematico complesso è corretto in assoluto, ma può quasi sempre giudicare se uno specifico passo è valido. Questa intuizione è centrale nel framework di alignment moderno: si decompone un task complesso in passi verificabili, si supervisiona i passi, e si trasferisce la verifica al modello che impara a verificare se stesso.

Il secondo asse è il legame diretto con la famiglia o1 e i modelli reasoning successivi. La pipeline di o1 (settembre 2024) usa un PRM-style reward signal per modellare il chain-of-thought interno del modello: durante il training, il modello viene premiato non per arrivare alla risposta giusta, ma per generare passi di ragionamento valutati positivamente da un PRM addestrato. Questo "reward shaping" sul reasoning è ciò che permette a o1 di produrre catene di pensiero lunghe e accurate. DeepSeek-R1 (2025) replica e estende lo stesso approccio. La linea concettuale che parte da "Let's Verify Step by Step" attraversa Math-Shepherd, OmegaPRM, e arriva ai test-time compute scaling dei modelli reasoning del 2024-2025. Senza questo paper, è difficile immaginare come la community sarebbe arrivata alla stessa architettura.

Link alla fonte originale

arxiv.org/abs/2305.20050 →

Paper in inglese, 29 pagine, preprint arXiv maggio 2023. Accesso gratuito. Dataset PRM800K disponibile su github.com/openai/prm800k. Apparso anche su OpenAI Research blog con titolo divulgativo "Improving mathematical reasoning with process supervision".