Salta al contenuto
AImpact
IT EN
Pietra miliare Modelli foundation · 1 min lettura

Chinchilla: i modelli grandi erano sotto-addestrati

In una frase DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Fino al 2022 la corsa era: "facciamo il modello più grande possibile". DeepMind dice: state sbagliando.

Il loro paper mostra che se hai una certa quantità di calcolo da spendere, conviene fare un modello un po' più piccolo ma dargli molti più dati di lettura. Per provarlo addestrano Chinchilla (70 miliardi di parametri) e batte Gopher (280 miliardi) e GPT-3 (175 miliardi).

È una rivoluzione tranquilla: cambia le regole con cui tutti i laboratori decideranno quanto grandi fare i prossimi modelli. Llama, GPT-4 e i successori porteranno tutti questa lezione.

Aziende

DeepMind

Tool

Chinchilla

Tag

DeepMindChinchillaScaling LawsCompute-OptimalResearch

Fonti