Chain-of-Thought Prompting — Come Far Ragionare i LLM Passo per Passo

Chi è / Cos'è: Jason Wei, Xuezhi Wang, Dale Schuurmans e altri ricercatori Google Brain pubblicano a gennaio 2022 il paper che formalizza il Chain-of-Thought prompting. Presentato a NeurIPS 2022, è diventato uno dei paper più citati dell'anno. La scoperta: mostrare al modello esempi con ragionamento intermedio scritto esplicitamente, invece di solo input-output, porta a miglioramenti drastici su task di ragionamento.

Il problema di base

I large language model prima del 2022 erano già impressionanti su task linguistici — riassunto, traduzione, classificazione. Ma su problemi che richiedono ragionamento multi-step — aritmetica con più operazioni, problemi di logica, ragionamento su relazioni — le performance crollavano. Un modello da 100 miliardi di parametri risolveva problemi matematici elementari peggio di un bambino di scuola media.

Il few-shot prompting standard (GPT-3, 2020) funzionava così: si mostrano al modello 3-8 esempi del tipo "domanda → risposta corretta", poi si fa la domanda reale. Il modello impara il formato dalla struttura, non il ragionamento dal contenuto.

La scoperta: il ragionamento intermedio come esempio

Wei et al. modificano il formato degli esempi nel prompt. Invece di:

Q: Roger ha 5 palline. Compra 2 scatole con 3 palline ciascuna. Quante palline ha?
A: 11

Usano:

Q: Roger ha 5 palline. Compra 2 scatole con 3 palline ciascuna. Quante palline ha?
A: Roger inizia con 5 palline. 2 scatole × 3 palline = 6 palline. 5 + 6 = 11. La risposta è 11.

Il ragionamento intermedio — la "catena di pensiero" — viene scritto esplicitamente. Il modello, esposto a questi esempi, impara a produrre ragionamento intermedio anche sulle domande successive.

I risultati quantitativi

I benchmark testati includono GSM8K (problemi matematici verbali da scuola elementare), MATH, CommonsenseQA, StrategyQA, e altri. I miglioramenti sono sostanziali:

GSM8K: PaLM 540B con standard prompting → 17.9% accuratezza. Con chain-of-thought → 56.9%. Più che triplicato.
SVAMP (varianti di problemi matematici): da 69.9% a 79.0% con PaLM 540B
AQuA (algebra): da 28.0% a 46.0%
StrategyQA (ragionamento multi-step): da 66.8% a 71.0%

L'emergenza: funziona solo sopra una soglia

Il risultato più rilevante teoricamente non è il miglioramento assoluto, ma la sua dipendenza dalla dimensione del modello. Su modelli piccoli (sotto circa 10 miliardi di parametri), il chain-of-thought prompting non produce miglioramenti e talvolta peggiora le performance. Il modello genera testo intermedio irrilevante che confonde la risposta finale.

Sopra circa 100 miliardi di parametri, la capacità appare bruscamente. Il paper la definisce una capacità emergente: non è un continuum, è una soglia. Sotto la soglia, il comportamento è assente. Sopra, è presente.

Questo ha implicazioni teoriche importanti: alcune capacità dei LLM non sono semplicemente "più di prima" con più parametri, ma qualitatively nuove. Il meccanismo preciso è ancora dibattuto, ma l'ipotesi principale è che servano abbastanza parametri per mantenere coerentemente stato intermediario nel contesto durante generazione sequenziale.

Zero-shot chain-of-thought: "think step by step"

Un paper correlato di Kojima et al. (maggio 2022) mostra che la frase letterale "Let's think step by step" aggiunta alla domanda — senza nessun esempio nel prompt — produce miglioramenti simili su modelli grandi. Questo è il zero-shot CoT. Non serve costruire esempi con ragionamento: basta istruire il modello a ragionare esplicitamente.

Conseguenza pratica immediata: chiunque usi un LLM grande può ottenere risposte migliori su problemi complessi semplicemente chiedendo di "ragionare passo per passo" o "mostrare il procedimento". Non è un trucco — è un pattern di inferenza genuinamente diverso.

Il contesto come carta da brutta

L'interpretazione più convincente del perché funziona: il contesto (la finestra di token che il modello può leggere durante la generazione) agisce come memoria di lavoro. Senza chain-of-thought, il modello deve calcolare "5 + 6 = 11" in un solo forward pass, senza spazio per passaggi intermedi. Con chain-of-thought, ogni passo intermedio viene scritto nel contesto e diventa disponibile per i passi successivi.

Il modello non ragiona "nella testa" — scrive il ragionamento, poi lo legge per il passo successivo. La lunghezza del contesto è il limite di questa memoria. Problemi che richiedono più passi di quanti ne entrano nel contesto rimangono difficili.

Sviluppi successivi diretti

Il chain-of-thought prompting ha prodotto una linea di ricerca densa:

Scratchpad reasoning (Nye et al., 2021, quasi contemporaneo): idea simile applicata a modelli piccoli con fine-tuning
Self-consistency (Wang et al., 2022): genera multiple chain-of-thought diverse, prende la risposta per maggioranza. Migliora ulteriormente le performance.
Tree of Thoughts (Yao et al., 2023): esplora più percorsi di ragionamento in parallelo invece di una singola catena lineare
Process Reward Models: modelli addestrati a valutare la correttezza di ogni passo intermedio, non solo della risposta finale. Base per l'addestramento di sistemi come o1.
OpenAI o1 (2024): chain-of-thought interno nascosto all'utente, con scaling del tempo di inferenza invece che solo dei parametri. Il ragionamento lungo migliora le performance su problemi difficili.

Perché conta

Chain-of-thought ha spostato l'attenzione dal solo scaling dei parametri allo scaling del ragionamento a runtime. Ha mostrato che come si interroga un modello conta quanto il modello stesso. E ha aperto la domanda su cosa significhi "ragionare" per un sistema statistico: se il ragionamento intermedio nel contesto produce risposte corrette, la distinzione tra "simulare il ragionamento" e "ragionare" diventa meno netta di quanto sembri.

Link alla fonte originale

arxiv.org/abs/2201.11903 →

Paper in inglese, 43 pagine incluse appendici, preprint ArXiv gennaio 2022. Pubblicato in forma definitiva a NeurIPS 2022. Accesso gratuito su ArXiv.