AgentBench: la prima benchmark che misura gli LLM come agenti reali
In una frase Tsinghua presenta AgentBench, prima benchmark completa per agenti LLM su 8 ambienti operativi. Rivela un gap enorme tra GPT-4 e i migliori modelli open-source.
Finora i modelli linguistici venivano valutati su quiz di conoscenza o comprensione del testo. Ma un agente AI non fa quiz: naviga siti web, scrive codice, gestisce database, gioca a giochi di testo. Come si misura davvero la capacità agentiva?
AgentBench è la prima risposta sistematica a questa domanda: propone 8 ambienti diversi — sistema operativo, database, web browser, e-commerce, giochi di testo e altro — dove il modello deve completare task concreti con conseguenze reali.
Il risultato più importante non è la classifica in sé, ma il divario trovato: GPT-4 supera di gran lunga tutti i competitor, mentre i migliori modelli open-source dell'epoca (LLaMA, Vicuna) falliscono su quasi tutto. Un dato che accelera lo sviluppo di open-source agent-capable models.
Aziende
Tsinghua University
Tool
AgentBench
Tag
Fonti