AgentBench: la prima benchmark che misura gli LLM come agenti reali

In una frase Tsinghua presenta AgentBench, prima benchmark completa per agenti LLM su 8 ambienti operativi. Rivela un gap enorme tra GPT-4 e i migliori modelli open-source.

Verificato Fonte ufficiale

CondividiLinkedIn X

Finora i modelli linguistici venivano valutati su quiz di conoscenza o comprensione del testo. Ma un agente AI non fa quiz: naviga siti web, scrive codice, gestisce database, gioca a giochi di testo. Come si misura davvero la capacità agentiva?

AgentBench è la prima risposta sistematica a questa domanda: propone 8 ambienti diversi — sistema operativo, database, web browser, e-commerce, giochi di testo e altro — dove il modello deve completare task concreti con conseguenze reali.

Il risultato più importante non è la classifica in sé, ma il divario trovato: GPT-4 supera di gran lunga tutti i competitor, mentre i migliori modelli open-source dell'epoca (LLaMA, Vicuna) falliscono su quasi tutto. Un dato che accelera lo sviluppo di open-source agent-capable models.