Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Software Engineering Bench

SWE-bench

/swee-bench/

Benchmark con oltre 2.000 issue reali estratte da repository GitHub Python: il modello deve produrre una patch che faccia passare i test del progetto.

CondividiLinkedInX

In pratica

Misura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.

Termini collegati

← Tutti i termini