Multi-Agent Debate: far discutere piu' LLM migliora il ragionamento del +20%
In una frase Ricercatori MIT e Google dimostrano che far dibattere e criticare piu' istanze LLM le stesse risposte per N round porta a risposte piu' accurate: +20% su benchmark aritmetici e di ragionamento vs singolo agente. Fonda il pattern di verifica basata sul dibattito negli agenti moderni.
Se chiedi la stessa domanda difficile di matematica a dieci persone diverse, e poi le fai discutere tra loro sulle risposte, la risposta finale del gruppo e' piu' accurata di quella di ciascuno singolarmente. Questo fenomeno, noto da secoli in filosofia e sociologia, funziona anche con i modelli di linguaggio.
I ricercatori di MIT e Google hanno preso piu' copie dello stesso LLM, hanno fatto rispondere ciascuna alla domanda, e poi hanno fatto leggere a ciascuna le risposte delle altre e revisionare la propria. Ripetendo questo ciclo per qualche round, le risposte convergono verso quelle corrette molto piu' spesso che con un singolo modello.
Il miglioramento e' sostanziale: su problemi aritmetici e di ragionamento logico, la percentuale di risposte corrette sale di circa il 20%. Non serve un modello piu' grande o piu' costoso: bastano piu' istanze dello stesso modello che si criticano a vicenda.
Questo risultato ha ispirato molti sistemi successivi che usano il dibattito come meccanismo di verifica interna.
Aziende
MIT, Google
Tool
—
Tag
Fonti