Chinchilla: i modelli grandi erano sotto-addestrati

In una frase DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.

Verificato Fonte ufficiale

CondividiLinkedIn X

Fino al 2022 la corsa era: "facciamo il modello più grande possibile". DeepMind dice: state sbagliando.

Il loro paper mostra che se hai una certa quantità di calcolo da spendere, conviene fare un modello un po' più piccolo ma dargli molti più dati di lettura. Per provarlo addestrano Chinchilla (70 miliardi di parametri) e batte Gopher (280 miliardi) e GPT-3 (175 miliardi).

È una rivoluzione tranquilla: cambia le regole con cui tutti i laboratori decideranno quanto grandi fare i prossimi modelli. Llama, GPT-4 e i successori porteranno tutti questa lezione.