In pratica
Misura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.
Termini collegati
Visto in azione
7 voci che lo citano- MedioSWE-bench Verified: OpenAI ripulisce il benchmark di riferimento per coding agent
- MedioAgentless: meno complessita' agente, piu' risultati su SWE-bench
- AltoDeepSeek-Coder-V2: qualita GPT-4 Turbo su coding con pesi aperti
- AltoAider: coding agent CLI con integrazione git automatica e benchmark SOTA
- AltoSWE-agent: un agente AI che risolve issue GitHub reali al 12.5%
- AltoDevin: il primo 'ingegnere AI autonomo' fa il giro del mondo
- Pietra miliareDevin: 13.86% su SWE-bench, il primo AI software engineer autonomo