Phi-1.5: reasoning da modello grande in soli 1,3 miliardi di parametri

In una frase Microsoft Research dimostra che 1,3B parametri addestrati su dati sintetici di qualità 'da manuale scolastico' producono capacità di ragionamento multi-step comparabili a modelli 5 volte più grandi.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Nel mondo dell'intelligenza artificiale c'è sempre stata l'idea che per essere intelligente bisogna essere grandi. Modelli da decine o centinaia di miliardi di parametri, addestrati su tutto il testo disponibile su internet.

Microsoft Research ha dimostrato che non è necessariamente vero. Phi-1.5 ha solo 1,3 miliardi di parametri — piccolo come un modello del 2020 — ma riesce a fare ragionamenti in più passaggi come modelli da 7 miliardi.

Il segreto? Non è stato addestrarlo su tutta internet, ma su testi scritti appositamente con la qualità di un buon libro di scuola: chiari, strutturati, pieni di esempi di ragionamento passo dopo passo. È come la differenza tra studiare su Wikipedia e studiare su un ottimo manuale scolastico.