AI Agents e ReAct — LLM che Pensano e Agiscono

Cos'è: Shunyu Yao, Jeffrey Zhao, Dian Yu e colleghi di Princeton e Google Brain pubblicano a ottobre 2022 il paper ReAct (Reasoning + Acting). Il framework propone di fare interagire ragionamento verbale esplicito e azioni concrete (chiamate a tool esterni) in un ciclo iterativo. Presentato a ICLR 2023, diventa la base concettuale dell'ecosistema agenti AI che esploderà nel 2023-2024.

Cosa distingue un "agent" da un chatbot

Un chatbot riceve un messaggio e produce una risposta. Un agent AI è qualcosa di fondamentalmente diverso: è un LLM in un loop. Osserva l'ambiente, ragiona su cosa fare, esegue un'azione tramite un tool, osserva il risultato dell'azione, ragiona di nuovo, esegue un'altra azione — e così via finché il task è completato o fallisce.

Il passaggio chiave è il tool use: la capacità del modello di chiamare funzioni esterne — cercare su web, eseguire codice, leggere e scrivere file, chiamare API, interagire con database. L'output non è solo testo ma azione nel mondo.

ReAct: Reasoning + Acting interleaved

Il contributo specifico di ReAct è mostrare che interlacciare chain-of-thought (ragionamento verbale) con azioni produce risultati migliori sia del solo ragionamento sia della sola azione.

Il ciclo ReAct ha tre tipi di output per ogni passo:

Thought: ragionamento interno ("Devo cercare la data di nascita di Einstein per rispondere a questa domanda")
Action: azione da eseguire ("Search[Albert Einstein birth date]")
Observation: risultato dell'azione restituito dal tool ("Albert Einstein was born on March 14, 1879")

Thought, Action, Observation si alternano finché il modello produce un'azione "Finish" con la risposta finale. Il ragionamento esplicito riduce gli errori di navigazione (il modello sa perché sta cercando cosa) e migliora la tracciabilità per il debug.

AutoGPT — aprile 2023: l'agente virale

Tre mesi dopo ReAct, Significant Gravitas pubblica AutoGPT su GitHub. In una settimana raggiunge 150.000 stelle — la crescita più rapida nella storia di GitHub fino a quel momento. AutoGPT applica l'idea agente a task di lunghezza arbitraria: hai un obiettivo, l'agent pianifica autonomamente sotto-obiettivi, li esegue, corregge il percorso in base ai risultati.

Il clamore era giustificato come proof of concept: dimostrava che un LLM poteva operare su task multi-step con minima supervisione. Non era giustificato come strumento affidabile: AutoGPT falliva spesso su task reali, entrava in loop, consumava token esorbitanti, produceva risultati inconsistenti. Ma aveva mostrato la direzione.

Il problema della reliability negli agenti

Il tallone d'Achille degli agenti AI è la moltiplicazione degli errori. In una catena di 10 azioni, se ogni azione ha il 90% di probabilità di essere corretta, la probabilità che l'intera catena sia corretta è 0,9^10 ≈ 35%. Per task che richiedono 20+ passi, i numeri diventano scoraggianti.

Le fonti di errore specifiche degli agenti:

Allucinazione a cascata: un'osservazione errata al passo 3 corrompe il ragionamento ai passi 4, 5, 6...
Loop infiniti: il modello non riesce a progredire e ripete le stesse azioni
Over-planning: pianificazione di sottotask inutili che aumentano latenza e costo
Tool misuse: il modello usa il tool sbagliato o con parametri errati
Context overflow: loop lunghi consumano tutta la context window con osservazioni precedenti

I framework principali

Dall'ecosistema 2023-2024:

LangChain: il più adottato, ricca libreria di tool integrations, agents con memoria. Criticato per astrazione eccessiva e debugging difficile.
LlamaIndex: focalizzato su data ingestion e query su strutture eterogenee. Agenti con accesso a knowledge base complesse.
AutoGen (Microsoft, settembre 2023): framework multi-agent — più LLM che collaborano in conversazioni strutturate. Un "orchestrator" agent coordina "executor" specializzati.
CrewAI: astrazione di team di agenti con ruoli, tool assignments, workflow definiti. Più semplice di AutoGen per casi d'uso comuni.
Semantic Kernel (Microsoft): integrazione di agenti AI in applicazioni .NET e Python, con plugin system.

Tool use: cosa possono fare gli agenti

La categoria di tool definisce il perimetro di azione dell'agent:

Web search: Bing, Google, Serper API — accesso a informazioni aggiornate
Code execution: Python sandbox, shell commands — calcoli, elaborazione dati, automazione
File I/O: lettura e scrittura di documenti, CSV, immagini
API calls: qualsiasi servizio REST — CRM, ERP, calendar, email
Browser automation: Playwright, Selenium — navigazione web, form filling, screen scraping
Database: query SQL su dati strutturati

Computer Use e GUI agents

Anthropic lancia Computer Use nell'ottobre 2024: Claude può vedere uno screenshot del desktop, decidere dove cliccare, cosa scrivere, come navigare — come un operatore umano. OpenAI risponde con Operator a gennaio 2025. Questi "GUI agent" eliminano la dipendenza dall'API: possono interagire con qualsiasi software, anche legacy senza API esposte.

L'implicazione pratica per le aziende è enorme: sistemi gestionali vecchi di vent'anni, ERP non integrabili, portali web senza API — tutti diventano accessibili a un agent. Il "robotic process automation" (RPA) tradizionale richiedeva script fragili basati su coordinate pixel. I GUI agent comprendono il contesto visivo e si adattano a variazioni nell'interfaccia.

Da chat a workflow: il cambiamento di paradigma

Il passaggio da LLM-come-chatbot a LLM-come-agent è un cambio categorico. Un chatbot aumenta la produttività individuale: risponde domande, genera testo, aiuta a ragionare. Un agent può eseguire workflow completi: raccogliere dati da fonti diverse, analizzarli, produrre un report, inviarlo via email, aggiornare un CRM — senza intervento umano passo per passo.

La sfida aperta non è tecnica ma organizzativa: definire dove l'autonomia dell'agent è appropriata e dove serve supervisione umana, come gestire gli errori in pipeline automatizzate, come auditare le azioni di un agent in ambienti regolati.

Link alla fonte originale

arxiv.org/abs/2210.03629 →

Paper in inglese, Yao et al., Princeton University e Google Brain, ottobre 2022. Presentato a ICLR 2023. Accesso gratuito su ArXiv. Il paper ReAct è il riferimento teorico dell'ecosistema agenti; l'ecosistema applicativo si è sviluppato principalmente nel 2023-2024.