Salta al contenuto
AImpact
IT EN
Alto Agenti · 1 min lettura

Reflexion: agenti che imparano dagli errori senza gradient updates

In una frase MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Quando facciamo un errore, non riscriviamo il nostro cervello — ci riflettiamo sopra, capiamo cosa è andato storto, e la prossima volta facciamo meglio. Reflexion porta questa stessa capacità agli agenti AI.

Dopo ogni tentativo fallito, l'agente genera una riflessione verbale in linguaggio naturale: "Ho sbagliato perché ho assunto che X, ma in realtà Y". Questa riflessione viene salvata in una memoria episodica e usata come contesto nei tentativi successivi.

Il risultato è un agente che migliora trial dopo trial senza alcun fine-tuning: su HotpotQA passa dal 33% al 51% di successo, su AlfWorld dal 42% al 97%. È reinforcement learning in linguaggio naturale, senza un gradiente in vista.

Aziende

MIT, Northeastern University, Princeton University

Tool

Reflexion, GPT-4, GPT-3.5

Tag

MITNortheasternReflexionSelf-ReflectionVerbal RLReAct

Fonti