SWE-agent: un agente AI che risolve issue GitHub reali al 12.5%

In una frase Princeton presenta SWE-agent, agente con interfaccia ACI dedicata che risolve issue reali di GitHub su SWE-bench al 12.5% — da 6x a 12x meglio dei sistemi precedenti.

Verificato Fonte ufficiale

CondividiLinkedIn X

Risolvere un bug in un repository GitHub vero è un lavoro complesso: bisogna capire il codice esistente, navigare file, modificare il codice nel posto giusto, eseguire i test e verificare che il bug sia effettivamente risolto. Fino ad oggi, nessun agente AI ci riusciva in modo affidabile.

SWE-agent introduce un'interfaccia speciale chiamata ACI (Agent-Computer Interface) — pensata apposta per agenti AI, non per umani — che semplifica le operazioni di navigazione del codice, apertura di file e modifica di snippet precisi.

Con questa interfaccia dedicata, SWE-agent risolve il 12.5% delle issue reali nel benchmark SWE-bench, contro l'1-2% dei sistemi precedenti. Non è ancora abbastanza per sostituire uno sviluppatore, ma è un salto qualitativo enorme e l'inizio della categoria "coding agent".