Self-Consistency: campionare più ragionamenti per rispondere meglio

In una frase Wang et al. (Google Brain) mostrano che campionare N percorsi di ragionamento diversi e prendere la risposta più frequente batte il greedy decoding su tutti i benchmark di ragionamento.

Verificato Fonte ufficiale

CondividiLinkedIn X

Quando chiedi a un modello di risolvere un problema, di solito prende il percorso "più probabile" verso la risposta. Self-Consistency fa qualcosa di diverso: chiede al modello di risolvere lo stesso problema tante volte in modi diversi, poi prende la risposta che compare più spesso.

È come chiedere a dieci persone di risolvere un calcolo ognuna per conto suo e poi votare il risultato: anche se qualcuno sbaglia, la maggioranza ha ragione.

Il risultato è sorprendente: senza cambiare nulla nel modello, solo campionando più volte, si ottengono miglioramenti grandi su aritmetica e ragionamento logico.