Reflexion: agenti che imparano dagli errori senza gradient updates

In una frase MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Quando facciamo un errore, non riscriviamo il nostro cervello — ci riflettiamo sopra, capiamo cosa è andato storto, e la prossima volta facciamo meglio. Reflexion porta questa stessa capacità agli agenti AI.

Dopo ogni tentativo fallito, l'agente genera una riflessione verbale in linguaggio naturale: "Ho sbagliato perché ho assunto che X, ma in realtà Y". Questa riflessione viene salvata in una memoria episodica e usata come contesto nei tentativi successivi.

Il risultato è un agente che migliora trial dopo trial senza alcun fine-tuning: su HotpotQA passa dal 33% al 51% di successo, su AlfWorld dal 42% al 97%. È reinforcement learning in linguaggio naturale, senza un gradiente in vista.