In pratica
Utile per task con feedback chiaro (test che falliscono, risposte sbagliate). L'agente impara dai propri errori dentro la stessa sessione, senza fine-tuning. Spesso aumenta il successo su benchmark di coding e ragionamento.
Utile per task con feedback chiaro (test che falliscono, risposte sbagliate). L'agente impara dai propri errori dentro la stessa sessione, senza fine-tuning. Spesso aumenta il successo su benchmark di coding e ragionamento.