Reflexion — Come i LLM Imparano dai Propri Errori in Linguaggio Naturale

Cos'è: Paper di Noah Shinn, Federico Cassano, Edward Berman e altri ricercatori della Northeastern University, pubblicato su arXiv il 20 marzo 2023. Introduce Reflexion, un framework agentico in cui un LLM impara dai propri errori non attraverso aggiornamento dei pesi, ma scrivendo riflessioni in linguaggio naturale che vengono salvate in una memoria episodica e riusate nei tentativi successivi. È uno dei lavori più influenti del 2023 sull'agentic AI e un precursore concettuale di tutti i moderni agent framework.

L'architettura: tre componenti, un loop

Reflexion è composto da tre moduli concettuali distinti, tutti implementati come LLM con prompt specializzati. L'Actor è il modulo che genera azioni — completa codice, risolve problemi, naviga ambienti simulati — date la specifica del task e la memoria episodica corrente. L'Evaluator giudica la qualità del risultato prodotto dall'Actor: in alcuni task il giudizio è automatico (test unitari che passano o falliscono); in altri è prodotto da un altro LLM che simula il valutatore. Il Self-Reflection è il componente nuovo del paper: prende come input la traiettoria fallita dell'Actor e il giudizio dell'Evaluator, e produce una riflessione testuale che identifica cosa è andato storto e cosa fare diversamente al prossimo tentativo.

Queste riflessioni vengono accumulate in una memoria episodica testuale, distinta dal "working memory" del contesto immediato. Al tentativo successivo, l'Actor riceve come input il task originale più tutte le riflessioni precedenti. Il modello non viene riaddestrato — i pesi restano invariati — ma il suo comportamento cambia perché il contesto cambia. La memoria episodica funziona come un quaderno di appunti che il modello consulta prima di agire.

I risultati quantitativi

Gli autori testano Reflexion su tre famiglie di benchmark. Su HumanEval (generazione di codice Python a partire da docstring), GPT-4 baseline raggiunge l'80% di accuratezza al primo tentativo; con Reflexion la performance sale al 91%. Su MBPP (Mostly Basic Python Problems) il miglioramento è da 80,1% a 77,1% per il modello base salendo a circa l'88% con la pipeline completa. Su AlfWorld, ambiente di text-based household tasks, il success rate sale di 22 punti percentuali rispetto a baseline ReAct, passando da circa 75% a circa 97% su task multistep. Su HotpotQA (question answering multi-hop) il guadagno è più contenuto ma comunque significativo, intorno a 17 punti percentuali.

Un dettaglio importante: il guadagno principale arriva entro i primi 3-5 tentativi, dopodiché si stabilizza. Il modello non migliora indefinitamente — converge a un plateau che dipende dalla qualità del modello base. Reflexion estrae più valore dalle capacità latenti del modello, non aggiunge capacità che non sono già nel modello base.

Perché funziona: tre intuizioni

La prima intuizione è che il linguaggio naturale è un mezzo di rappresentazione potente per il feedback. Tecniche tradizionali di reinforcement learning aggiornano una distribuzione di policy sulla base di un reward scalare; Reflexion lavora su feedback testuale ricco, che contiene non solo "questo era sbagliato" ma "questo era sbagliato perché hai assunto X mentre il task richiedeva Y". Il modello processa questo feedback con gli stessi circuiti che usa per comprendere qualunque altro testo — non c'è bisogno di gradient updates.

La seconda intuizione è che la memoria episodica esterna risolve il problema del context window. Anche con context lunghi, mantenere coerenza su molti tentativi è difficile. La riflessione condensa l'esperienza in pochi token significativi, riusabili nel tentativo successivo senza riempire il contesto con l'intera traiettoria fallita. La terza intuizione è che la separazione tra Actor ed Evaluator riduce il bias di self-evaluation: lo stesso prompt che genera l'azione non è ottimale per giudicarla, perché il modello tende a confermare le proprie scelte.

Limiti e impatto sui framework moderni

Gli autori sono espliciti sui limiti. Reflexion dipende criticamente dalla qualità del modello base — su GPT-3.5 il guadagno è significativamente più piccolo che su GPT-4, e su modelli ancora più deboli la riflessione produce feedback errato che peggiora il comportamento successivo. Il framework presuppone che esista un Evaluator affidabile: su task dove l'evaluation è ambigua o errata, il loop si autoavvelena. Inoltre, il costo computazionale è elevato perché ogni tentativo include la generazione di azioni, valutazione, riflessione, e ricontestualizzazione dell'intera memoria episodica.

L'impatto del paper si misura nei framework successivi. AutoGen di Microsoft, LangGraph di LangChain, OpenAI Swarm, CrewAI: tutti adottano in varianti diverse la stessa idea base — agenti che riflettono, scrivono memoria episodica, e iterano su feedback strutturato. Le moderne pipeline di "deep research" (Perplexity, OpenAI Deep Research, Google Gemini Deep Research) usano discendenti diretti di questa architettura: un Actor che esegue ricerche, un Evaluator che giudica la qualità delle fonti, un Self-Reflection che decide se serve approfondire. Reflexion è il primo lavoro ad articolare chiaramente che gli agenti AI possono migliorare a runtime senza training, e questa intuizione è oggi assunto operativo della quasi totalità dei sistemi agentic in produzione.

Link alla fonte originale

arxiv.org/abs/2303.11366 →

Paper in inglese, 23 pagine, preprint arXiv marzo 2023, presentato a NeurIPS 2023. Accesso gratuito. Codice open source disponibile su GitHub (noahshinn/reflexion).