Devin — Il Primo 'Ingegnere Software AI' e la Realtà dei Benchmark

Cos'è: Devin è un agente AI per lo sviluppo software annunciato da Cognition Labs il 12 marzo 2024. Fondato da Scott Wu (ex vincitore di olimpiadi internazionali di matematica e informatica) con $175 milioni di Series A da Founders Fund, Cognition ha presentato Devin come il primo sistema in grado di operare come un ingegnere software autonomo: leggere una issue su GitHub, scrivere codice, eseguire test, correggere errori, e fare deploy — senza supervisione umana continua.

L'annuncio e il benchmark SWE-bench

Il 12 marzo 2024 il post sul blog di Cognition esplode sui social tecnici. La demo mostra Devin che riceve un'issue GitHub ("il sito non carica correttamente le immagini in certi browser"), apre un terminale, esamina il codice, identifica il bug, scrive la correzione, esegue i test, tutto in autonomia. Il video è convincente. Ma il numero che catalizza l'hype è il benchmark: SWE-bench al 13.86%.

SWE-bench è un dataset di 2.294 issue reali estratte da repository GitHub open source popolari (Django, Flask, Matplotlib, NumPy...) — problemi reali segnalati da sviluppatori reali, con test di verifica che confermano la correttezza della soluzione. Prima di Devin, i migliori modelli base (GPT-4, Claude) risolvevano il 4-6% di questi problemi. Devin arriva al 13.86% — più del triplo. L'interpretazione mainstream fu immediata: "Devin può fare il lavoro di un programmatore junior. I programmatori saranno rimpiazzati."

Il reality check: cosa il benchmark non dice

Nei giorni successivi all'annuncio, diversi ricercatori e sviluppatori hanno esaminato più attentamente la metodologia. Il primo punto critico: Cognition aveva usato la versione lite di SWE-bench (300 issue selezionate) in condizioni assistite — Devin poteva scegliere su quali issue tentare, scartando quelle più difficili. Sulla versione completa non assistita, le performance erano significativamente inferiori.

Il secondo punto: il 13.86% significa anche che Devin fallisce sull'86% dei problemi. I problemi risolti tendono a essere atomici, ben definiti, con test chiari e scope limitato. I problemi che richiedono comprensione del contesto di business, ragionamento su architetture complesse, o decisioni che coinvolgono stakeholder non tecnici — Devin non li gestisce.

Il terzo punto, sollevato da un ex ingegnere di Upwork che aveva assunto Devin per un task reale: Devin aveva eseguito azioni non richieste, non aveva seguito le istruzioni in modo preciso, e aveva prodotto un risultato parzialmente sbagliato che sembrava corretto — il tipo di errore silenzioso più pericoloso in produzione.

L'ecosistema degli agenti di coding che è esploso dopo

Devin ha avuto il merito di aprire un filone di ricerca e sviluppo sui coding agent. Nel giro di settimane dall'annuncio sono emersi:

SWE-agent (Princeton NLP, open source): un framework per agenti che risolvono issue SWE-bench, raggiungendo risultati comparabili a Devin su alcuni subset con modelli base più piccoli. La pubblicazione open source ha democratizzato la ricerca.

OpenHands (ex OpenDevin): fork della comunità open source ispirato direttamente a Devin, con architettura trasparente e possibilità di self-hosting. Ha attratto migliaia di contributor e diventato il riferimento per chi vuole sperimentare agenti di coding senza dipendere da servizi commerciali.

Claude con tool use e computer use: Anthropic ha rilasciato capacità di computer use a ottobre 2024 — Claude può usare un browser, eseguire codice, interagire con GUI — aprendo possibilità per agenti di sviluppo costruiti direttamente sul modello base.

Il salto di Claude 3.5 Sonnet su SWE-bench

L'ottobre 2024 porta un dato che cambia la prospettiva su tutto il settore: Claude 3.5 Sonnet con scaffolding appropriato raggiunge il 49% su SWE-bench verificato. Non è Devin — è un modello base con uno strato di orchestrazione — ma risolve quasi la metà dei problemi reali del benchmark. Il progresso in sette mesi dall'annuncio di Devin (13.86%) al risultato di Claude (49%) è indicativo della velocità di miglioramento del campo.

Cosa gli agenti di coding sanno fare oggi (e cosa no)

La lezione consolidata dai mesi di utilizzo reale degli agenti di coding è una distinzione netta tra task atomici e sistemi complessi. Gli agenti eccellono su problemi ben definiti con scope limitato: correggere un bug specifico, scrivere test per una funzione esistente, fare refactoring di un modulo secondo un pattern preciso, generare boilerplate ripetitivo. In questi casi possono effettivamente operare con supervisione minima e produrre risultati affidabili.

Su sistemi complessi — applicazioni enterprise con anni di storia tecnica, decisioni architetturali con implicazioni di business, debugging di problemi emergenti che coinvolgono l'interazione di dozzine di componenti — gli agenti attuali sono fragili. Fanno assunzioni errate, perdono il contesto nelle catene di ragionamento lunghe, e producono soluzioni localmente corrette ma globalmente incoerenti. Il "sostituire il programmatore" è ancora fantascienza — ma l'"amplificare il programmatore" su task specifici è già realtà operativa.

Link alla fonte originale

Cognition AI — "Introducing Devin" →

Il post originale del 12 marzo 2024 include la demo video e i dettagli sul benchmark SWE-bench. Devin è accessibile su cognition.ai con lista d'attesa. Per alternative open source: github.com/All-Hands-AI/OpenHands.