SWE-agent: un agente AI che risolve issue GitHub reali al 12.5%
In una frase Princeton presenta SWE-agent, agente con interfaccia ACI dedicata che risolve issue reali di GitHub su SWE-bench al 12.5% — da 6x a 12x meglio dei sistemi precedenti.
Risolvere un bug in un repository GitHub vero è un lavoro complesso: bisogna capire il codice esistente, navigare file, modificare il codice nel posto giusto, eseguire i test e verificare che il bug sia effettivamente risolto. Fino ad oggi, nessun agente AI ci riusciva in modo affidabile.
SWE-agent introduce un'interfaccia speciale chiamata ACI (Agent-Computer Interface) — pensata apposta per agenti AI, non per umani — che semplifica le operazioni di navigazione del codice, apertura di file e modifica di snippet precisi.
Con questa interfaccia dedicata, SWE-agent risolve il 12.5% delle issue reali nel benchmark SWE-bench, contro l'1-2% dei sistemi precedenti. Non è ancora abbastanza per sostituire uno sviluppatore, ma è un salto qualitativo enorme e l'inizio della categoria "coding agent".
Aziende
Princeton University
Tool
SWE-agent, GPT-4, SWE-bench
Tag
Fonti