Self-Consistency — Come il Voto di Maggioranza Rende i LLM più Affidabili

Cos'è: Self-Consistency è un paper di Xuezhi Wang e collaboratori di Google Brain pubblicato nel marzo 2022. La tecnica è concettualmente semplice: invece di generare una singola catena di ragionamento (Chain-of-Thought) e fidarsi di quella, si generano N catene indipendenti con temperature diverse, e si prende la risposta finale che appare più frequentemente — un voto di maggioranza. Senza modificare i pesi del modello, si ottengono miglioramenti consistenti e significativi su task aritmetici e di ragionamento comune.

Il problema del greedy decoding in Chain-of-Thought

Quando Wei et al. hanno introdotto il Chain-of-Thought prompting nel 2022 (un altro paper Google Brain dello stesso periodo), la scoperta era già notevole: includere nel prompt esempi di ragionamento passo-passo portava i grandi modelli linguistici a ragionare molto meglio su problemi aritmetici, logici e di senso comune. GPT-3 con CoT superava versioni fine-tuned specializzate su GSM8K (un benchmark di problemi matematici di scuola media).

Il metodo standard, però, usava il greedy decoding: temperatura 0, il modello genera sempre il token con probabilità più alta a ogni passo. Questo produce un'unica catena di ragionamento deterministica. Se questa catena contiene un errore — un calcolo sbagliato, un'inferenza errata, un'ambiguità risolta nel verso sbagliato — la risposta finale sarà sbagliata senza possibilità di recupero.

L'intuizione di Wang et al. è illuminante: il greedy decoding è una singola traiettoria in uno spazio di traiettorie possibili. Un modello competente può raggiungere la risposta corretta percorrendo strade diverse. Se molte strade diverse portano alla stessa risposta, è molto più probabile che quella risposta sia corretta — rispetto a una risposta a cui si arriva solo per un singolo percorso specifico. La self-consistency opera come un ensemble method: invece di ensemble di modelli, si fa ensemble di percorsi di ragionamento dello stesso modello.

Il metodo: campionamento e majority vote

Il procedimento operativo è semplice da descrivere. Dato un problema che richiede ragionamento, si costruisce un prompt CoT con alcuni esempi few-shot. Si genera poi lo stesso prompt N volte con temperatura alta (tipicamente 0.5–0.8): questo introduce stocasticità, cosicché ogni generazione produce una catena di ragionamento diversa. Ogni catena arriva a una risposta finale.

Si raccolgono le N risposte finali e si prende quella che appare più frequentemente: il majority vote. Se 7 percorsi su 10 concludono che la risposta è 42, e 3 percorsi arrivano a risposte diverse (32, 45, 38), la risposta finale è 42.

Non c'è alcun meccanismo per valutare quale catena di ragionamento sia "migliore". Non si guarda la struttura del ragionamento, non si verifica la coerenza interna delle singole catene. Si conta solo la frequenza delle risposte finali. Questa semplicità è sia un punto di forza (nessun componente aggiuntivo da addestrare o configurare) sia un punto di debolezza (sprechi computazionali se molte catene errate arrivano alla stessa risposta sbagliata).

Risultati: +17.9% su GSM8K con GPT-3

I risultati del paper su GPT-3 (code-davinci-002, il modello di riferimento del 2022) sono marcati e consistenti su tutti i benchmark testati. Su GSM8K (problemi aritmetici di scuola media), il CoT greedy standard ottiene il 56.5% di accuratezza. Self-Consistency con 40 percorsi campionati porta l'accuratezza all'74.4% — un miglioramento di 17.9 punti percentuali assoluti. Su SVAMP (altro benchmark aritmetico) si passa dal 68.9% all'82.5%. Su AQuA-RAT (algebra) dal 43.9% al 53.3%.

Gli autori testano anche modelli di dimensioni diverse e trovano che la self-consistency scala in modo consistente: i guadagni sono presenti sia su modelli piccoli (PaLM 8B) sia su modelli grandi (PaLM 540B). I modelli più grandi partono da una baseline più alta ma i miglioramenti rimangono sostanziali.

Crucialmente, i miglioramenti non richiedono training aggiuntivo. Non si modificano i pesi del modello. Non si costruisce un reward model. Non si raccolgono nuovi dati. Si fanno solo N inferenze invece di una. Il costo è esattamente N× il costo di una singola inferenza — un trade-off semplice e lineare tra computazione e accuratezza.

L'intuizione profonda: percorsi multipli come evidenza bayesiana

L'idea di fondo ha radici nella statistica e nell'epistemologia. In termini bayesiani: se si ha un'ipotesi (la risposta x è corretta) e si osserva che molteplici percorsi di ragionamento indipendenti convergono su di essa, la probabilità che l'ipotesi sia vera aumenta con ogni percorso concordante — anche se i percorsi non sono completamente indipendenti tra loro.

C'è un analogo umano intuitivo. Quando un matematico risolve un problema e ottiene un risultato, spesso cerca una "via alternativa" per verificarlo: un approccio geometrico invece che algebrico, una dimostrazione per contraddizione invece che diretta. Se entrambe le strade portano allo stesso numero, la fiducia nel risultato cresce significativamente. Self-consistency formalizza questo processo per i LLM.

Il presupposto implicito — e fondamentale — è che il modello abbia imparato percorsi di ragionamento sufficientemente diversificati e che gli errori siano distribuiti in modo non correlato tra percorsi. Se il modello commette sistematicamente lo stesso errore in tutti i percorsi (per esempio, confonde sempre due concetti simili), il majority vote non aiuterà. La self-consistency funziona meglio quando gli errori sono "rumorosi" — casuali e non sistematici.

Costo e dove non funziona

Il costo computazionale è il limite principale. Con N=40 percorsi — il numero usato nel paper per i risultati migliori — si pagano 40× i FLOP e la latenza di una singola inferenza. In produzione, dove latenza e costo contano, questo è spesso proibitivo. La maggior parte delle applicazioni pratiche usa N tra 5 e 20, dove si ottiene la maggior parte del guadagno con costi gestibili.

Self-consistency non funziona bene su domande aperte senza risposta univoca. Se si chiede "scrivi un saggio sul cambiamento climatico", non c'è una risposta giusta da votare: N percorsi producono N testi diversi e il majority vote non ha senso. Il metodo è specificamente progettato per task con risposte discrete e verificabili: aritmetica, logica, commonsense reasoning, scelta multipla.

Funziona anche peggio quando le risposte hanno molte forme testuali equivalenti ma non identiche — per esempio risposte numeriche scritte come "42" vs "quarantadue" vs "42.0". Il counting naïve delle risposte richiede normalizzazione, che può essere non banale in contesti reali.

L'eredità: da Self-Consistency a o1 e i modelli di ragionamento

Self-Consistency è il precursore concettuale di tutto ciò che oggi chiamiamo "ragionamento" nei LLM. La logica — generare percorsi multipli, selezionare quello più affidabile — è la stessa che sta alla base di Tree of Thoughts (Yao et al. 2023), che esplora lo spazio dei percorsi in modo strutturato come un albero invece di una lista piatta. E anticipa direttamente il paradigma dei process reward models: invece di votare sulla risposta finale, si impara a valutare la qualità di ogni passo intermedio.

OpenAI o1 (settembre 2024) usa una strategia concettualmente imparentata: genera lunghe catene di ragionamento interno (il "thinking"), esplora percorsi alternativi, e usa un meccanismo di verifica interno per selezionare la risposta. I dettagli tecnici non sono pubblici, ma il principio — più ragionamento prima della risposta finale — discende direttamente da CoT e Self-Consistency. Allo stesso modo, DeepSeek-R1 e i modelli successivi nella categoria "reasoning" usano training su lunghe catene di ragionamento che incorporano esplicitamente la backtracking e l'esplorazione di percorsi alternativi.

Self-Consistency ha dimostrato nel 2022 qualcosa di fondamentale: i LLM non sono oracoli che producono la risposta ottima in un singolo passo. Sono sistemi stocastici che esplorano meglio se si dà loro spazio per farlo. Questa intuizione ha ridisegnato il modo in cui si pensa all'inference-time compute come variabile da ottimizzare, aprendo un'intera linea di ricerca che nel 2024 è diventata una delle più attive nel campo.

Link alla fonte originale

arxiv.org/abs/2203.11171 →

Paper originale EN, Wang et al. Google Brain, marzo 2022. Non richiede codice aggiuntivo: implementabile con qualsiasi framework di inferenza LLM.