Phi-1: 1.3B parametri che battono modelli 10x più grandi su codice

In una frase Microsoft Research pubblica Phi-1, 1.3B parametri addestrati su dati sintetici di alta qualità ('textbooks'), che supera modelli 10x più grandi su HumanEval.

Verificato Fonte ufficiale

CondividiLinkedIn X

Phi-1 è un modello piccolo — solo 1.3 miliardi di parametri — creato da Microsoft Research. La sorpresa è che su benchmark di programmazione batte modelli dieci volte più grandi come Codex e StarCoder.

Il segreto non è la dimensione, ma i dati: il team ha generato con GPT-4 una raccolta di "libri di testo sintetici" per la programmazione, dati molto più densi di concetti utili rispetto al codice grezzo di GitHub.

Il paper ha aperto un dibattito su cosa conta davvero nell'addestramento: la quantità di dati grezzi, o la qualità pedagogica di ciò che mostri al modello?