Devin: 13.86% su SWE-bench, il primo AI software engineer autonomo

In una frase Cognition pubblica Devin, il primo agente AI che risolve autonomamente il 13.86% dei bug reali su SWE-bench full, dieci volte sopra GPT-4 senza scaffolding esterno.

Verificato Fonte ufficiale

CondividiLinkedIn X

Devin è il primo AI presentato come un vero "software engineer autonomo". Non si limita a suggerire codice: pianifica il lavoro, esplora la codebase, scrive e testa soluzioni, e poi apre una pull request con il fix completo. Nel benchmark SWE-bench, che usa issue reali da GitHub, Devin risolve quasi il 14% dei problemi da solo. Gli strumenti precedenti come GPT-4 senza supporto aggiuntivo si fermavano all'1,7%. Non è ancora perfetto, ma è il momento in cui l'AI smette di essere un assistente e inizia a essere un collaboratore.