Aider Polyglot: il benchmark coding multi-linguaggio diventa standard

In una frase Il benchmark Aider Polyglot (225 esercizi Exercism in C++, Go, Java, JS, Python, Rust) si afferma come metrica de facto per modelli coding edit-aware, complementare a SWE-bench.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Paul Gauthier (autore di Aider, uno dei primi assistenti coding CLI con git integration) propone un nuovo benchmark: Aider Polyglot. Diversamente da SWE-bench (che misura "risolvi questo bug GitHub Python"), questo testa modelli su 225 esercizi Exercism in sei linguaggi: C++, Go, Java, JavaScript, Python, Rust.

Il punto interessante è il tipo di prova: il modello deve modificare codice esistente in più file, non scrivere da zero. E deve farlo nel formato di edit corretto (diff, search-replace, whole-file) — che è esattamente come funzionano gli assistenti coding reali.

Nei mesi seguenti diventa la metrica più citata sui leaderboard dei modelli coding. Anthropic, OpenAI, Google iniziano a riportare il punteggio Polyglot accanto a SWE-bench nelle release.