Reflexion: agenti che imparano dagli errori senza gradient updates
In una frase MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.
Quando facciamo un errore, non riscriviamo il nostro cervello — ci riflettiamo sopra, capiamo cosa è andato storto, e la prossima volta facciamo meglio. Reflexion porta questa stessa capacità agli agenti AI.
Dopo ogni tentativo fallito, l'agente genera una riflessione verbale in linguaggio naturale: "Ho sbagliato perché ho assunto che X, ma in realtà Y". Questa riflessione viene salvata in una memoria episodica e usata come contesto nei tentativi successivi.
Il risultato è un agente che migliora trial dopo trial senza alcun fine-tuning: su HotpotQA passa dal 33% al 51% di successo, su AlfWorld dal 42% al 97%. È reinforcement learning in linguaggio naturale, senza un gradiente in vista.
Aziende
MIT, Northeastern University, Princeton University
Tool
Reflexion, GPT-4, GPT-3.5
Tag
Fonti