Codex paper: OpenAI pubblica HumanEval e il modello dietro Copilot
In una frase OpenAI rilascia il paper Evaluating Large Language Models Trained on Code che descrive Codex, il modello dietro GitHub Copilot, e introduce HumanEval, il benchmark standard per il code generation.
OpenAI pubblica il paper tecnico di Codex, il modello che alimenta GitHub Copilot. Spiega come hanno preso GPT-3 e l'hanno ulteriormente addestrato su 159 GB di codice Python preso da GitHub.
Il paper introduce anche un test pratico: HumanEval, 164 problemi di programmazione con risposte corrette note. Per ogni problema, si genera codice e si controlla se passa i test automatici. Diventa il benchmark standard per misurare se un modello "sa programmare", usato da tutti i modelli successivi (Llama, Claude, GPT-4, DeepSeek...).
È la prima volta che l'industria ha un metro condiviso per dire "questo modello è migliore di quello su codice".
Aziende
OpenAI
Tool
Codex, HumanEval
Tag
Fonti