Phi-2: il modello 2.7B di Microsoft che fa più di un 13B

In una frase Microsoft Research rilascia Phi-2, 2.7B parametri addestrato su dati 'textbook quality'. Batte LLaMA 2 7B e Mistral 7B in benchmark di reasoning, gira su laptop. Filosofia 'small + clean data'.

Verificato Fonte ufficiale

CondividiLinkedIn X

Microsoft Research pubblica Phi-2, un modello da appena 2.7 miliardi di parametri (5× più piccolo di LLaMA 7B). La sorpresa: nei benchmark di ragionamento e codice, Phi-2 batte modelli 5-10 volte più grandi come LLaMA 2 13B e Mistral 7B.

La ricetta non è "più dati" ma "dati migliori". Il team — guidato da Sebastien Bubeck — addestra Phi-2 su un mix specifico: testi sintetici "in stile manuale di scuola" generati con GPT-4, codice filtrato per qualità didattica, dati web selezionati strettamente. La tesi del paper precedente "Textbooks Are All You Need" (giugno 2023) si conferma a scala maggiore.

Conseguenze pratiche: un 2.7B model gira tranquillamente su laptop CPU, su Raspberry Pi 5 con quantizzazione, su smartphone moderni. Phi-2 sblocca la pista degli "Small Language Models" (SLM) come alternativa locale ai giganti cloud. Apre la strada a Phi-3 (aprile 2024), Phi-3.5, Gemini Nano, Llama 3.2 1B/3B.