Codex paper: OpenAI pubblica HumanEval e il modello dietro Copilot

In una frase OpenAI rilascia il paper Evaluating Large Language Models Trained on Code che descrive Codex, il modello dietro GitHub Copilot, e introduce HumanEval, il benchmark standard per il code generation.

Verificato Fonte ufficiale

CondividiLinkedIn X

OpenAI pubblica il paper tecnico di Codex, il modello che alimenta GitHub Copilot. Spiega come hanno preso GPT-3 e l'hanno ulteriormente addestrato su 159 GB di codice Python preso da GitHub.

Il paper introduce anche un test pratico: HumanEval, 164 problemi di programmazione con risposte corrette note. Per ogni problema, si genera codice e si controlla se passa i test automatici. Diventa il benchmark standard per misurare se un modello "sa programmare", usato da tutti i modelli successivi (Llama, Claude, GPT-4, DeepSeek...).

È la prima volta che l'industria ha un metro condiviso per dire "questo modello è migliore di quello su codice".