Inferenza Intermedio

HumanEval

/human-eval/

Benchmark di OpenAI con 164 problemi di programmazione Python valutati eseguendo i test unitari sul codice generato dal modello.

CondividiLinkedIn X

In pratica

È stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.

Termini collegati

SWE-bench MMLU

Visto in azione

5 voci che lo citano

17 gennaio 2025

Qwen2.5-Coder-32B: il modello open source che batte GPT-4o sul codice

Alto
29 gennaio 2024

Code Llama 70B: Meta porta la coda di Llama 2 al livello GPT-3.5 per il codice

Medio
11 ottobre 2023

WizardCoder: istruzioni evolutive per generare codice a livello GPT-4

Medio
8 giugno 2023

Phi-1: 1.3B parametri che battono modelli 10x più grandi su codice

Alto
7 luglio 2021

Codex paper: OpenAI pubblica HumanEval e il modello dietro Copilot

Alto

← Tutti i termini