Inferenza Intermedio Anche noto come: Software Engineering Bench

SWE-bench

/swee-bench/

Benchmark con oltre 2.000 issue reali estratte da repository GitHub Python: il modello deve produrre una patch che faccia passare i test del progetto.

CondividiLinkedIn X

In pratica

Misura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.

Termini collegati

HumanEval Agent

Visto in azione

7 voci che lo citano

13 agosto 2024

SWE-bench Verified: OpenAI ripulisce il benchmark di riferimento per coding agent

Medio
10 luglio 2024

Agentless: meno complessita' agente, piu' risultati su SWE-bench

Medio
28 maggio 2024

DeepSeek-Coder-V2: qualita GPT-4 Turbo su coding con pesi aperti

Alto
2 aprile 2024

Aider: coding agent CLI con integrazione git automatica e benchmark SOTA

Alto
2 aprile 2024

SWE-agent: un agente AI che risolve issue GitHub reali al 12.5%

Alto
12 marzo 2024

Devin: il primo 'ingegnere AI autonomo' fa il giro del mondo

Alto
12 marzo 2024

Devin: 13.86% su SWE-bench, il primo AI software engineer autonomo

Pietra miliare

← Tutti i termini