SWE-bench Verified: OpenAI ripulisce il benchmark di riferimento per coding agent

In una frase OpenAI rilascia SWE-bench Verified, sottoinsieme di 500 task curato da ingegneri umani che corregge ambiguità del SWE-bench originale e diventa benchmark di riferimento per coding agents.

Verificato Fonte ufficiale

CondividiLinkedIn X

SWE-bench era un benchmark famoso del 2023 per testare quanto un'AI sa risolvere veri bug e feature di software open source (in particolare Django, sympy, requests, eccetera). Si dava all'AI l'issue su GitHub e si controllava se sapeva produrre la patch giusta.

Solo che molti task del benchmark originale erano ambigui: enunciati incompleti, test che fallivano per ragioni diverse, oppure problemi che richiedevano contesto che non veniva fornito. Risultato: i numeri reali variavano a seconda dell'interpretazione.

OpenAI paga ingegneri umani per esaminare e ripulire 500 task. Il risultato è "SWE-bench Verified", una versione di cui ci si può fidare. Diventa subito lo standard.