Phi-1: 1.3B parametri che battono modelli 10x più grandi su codice
In una frase Microsoft Research pubblica Phi-1, 1.3B parametri addestrati su dati sintetici di alta qualità ('textbooks'), che supera modelli 10x più grandi su HumanEval.
Phi-1 è un modello piccolo — solo 1.3 miliardi di parametri — creato da Microsoft Research. La sorpresa è che su benchmark di programmazione batte modelli dieci volte più grandi come Codex e StarCoder.
Il segreto non è la dimensione, ma i dati: il team ha generato con GPT-4 una raccolta di "libri di testo sintetici" per la programmazione, dati molto più densi di concetti utili rispetto al codice grezzo di GitHub.
Il paper ha aperto un dibattito su cosa conta davvero nell'addestramento: la quantità di dati grezzi, o la qualità pedagogica di ciò che mostri al modello?
Aziende
Microsoft
Tool
Phi-1
Tag
Fonti