In pratica
È stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.
Termini collegati
Visto in azione
5 voci che lo citano- AltoQwen2.5-Coder-32B: il modello open source che batte GPT-4o sul codice
- MedioCode Llama 70B: Meta porta la coda di Llama 2 al livello GPT-3.5 per il codice
- MedioWizardCoder: istruzioni evolutive per generare codice a livello GPT-4
- AltoPhi-1: 1.3B parametri che battono modelli 10x più grandi su codice
- AltoCodex paper: OpenAI pubblica HumanEval e il modello dietro Copilot