Salta al contenuto
AImpact
IT EN
Inferenza Intermedio

HumanEval

/human-eval/

Benchmark di OpenAI con 164 problemi di programmazione Python valutati eseguendo i test unitari sul codice generato dal modello.

CondividiLinkedInX

In pratica

È stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.

Termini collegati

← Tutti i termini