Chinchilla — DeepMind Corregge le Scaling Laws: i Dati Contano Quanto i Parametri

Cos'è: "Training Compute-Optimal Large Language Models" (Hoffmann et al., DeepMind, 2022), noto come "il paper Chinchilla", ha dimostrato che quasi tutti i grandi modelli linguistici del 2020-2022 — GPT-3, Gopher, MT-NLG — erano fondamentalmente mal bilanciati: troppi parametri, troppo pochi dati di training. Chinchilla, con 70 miliardi di parametri allenati su 1.4 trilioni di token, ha battuto Gopher da 280B su ogni benchmark. La regola: per compute ottimale, parametri e token devono crescere in proporzione uguale.

Le Scaling Laws originali e il problema che creavano

Il paper di Kaplan et al. (OpenAI, 2020) aveva stabilito leggi di potenza convincenti: raddoppiare i parametri del modello, mantenendo il budget di compute fisso, migliorava le performance in modo prevedibile. La community ne aveva dedotto una strategia: massimizzare i parametri. Più grande il modello, meglio. GPT-3 aveva 175B parametri e fu addestrato su 300 miliardi di token — circa 1.7 token per parametro.

Il problema: le Scaling Laws di Kaplan erano state derivate su esperimenti con compute e training budget fissi, ma non avevano esplicitamente ottimizzato il bilanciamento tra parametri e quantità di dati. Implicavano che scalare i parametri fosse sempre la mossa giusta, sottostimando l'impatto dei dati aggiuntivi.

L'esperimento Chinchilla: 400 modelli, un'unica risposta

Il team DeepMind ha addestrato oltre 400 modelli di dimensioni diverse (da 70M a 16B parametri) su dataset di dimensioni diverse, mantenendo budget di compute fissi. L'obiettivo: trovare empiricamente il punto ottimale di bilanciamento parametri/token per ogni budget di compute.

La risposta fu sorprendentemente semplice: per ogni parametro in più, servono circa 20 token di training in più. La proporzione ottimale è 1:20. Un modello da 70B parametri dovrebbe essere addestrato su 1.4 trilioni di token (70B × 20). Un modello da 7B su 140 miliardi di token. Questo è il regime "compute-optimal" o "Chinchilla-optimal".

Guardando i modelli precedenti con questa lente, il problema era evidente: GPT-3 (175B parametri, 300B token) era addestrato con circa 1.7 token per parametro — enormemente sotto-addestrato secondo la nuova regola. Stessa cosa per Gopher (280B, 300B token) e MT-NLG (530B, 270B token). Erano modelli enormi, ma "affamati" di dati.

Chinchilla vs Gopher: il risultato pratico

Con lo stesso budget di compute usato per addestrare Gopher (280B parametri), DeepMind addestrò Chinchilla: 70B parametri, 1.4 trilioni di token. Risultato: Chinchilla batteva Gopher su praticamente tutti i benchmark — Massive Multitask Language Understanding (MMLU), BIG-bench, reading comprehension, reasoning. Un modello quattro volte più piccolo, ma addestrato con quasi cinque volte più dati, era superiore.

Le implicazioni pratiche erano significative: Chinchilla era più economico da addestrare, più veloce durante l'inferenza, richiedeva meno memoria GPU. La "legge" precedente (più parametri = meglio) era stata corretta da una legge più completa che teneva conto di entrambe le dimensioni.

Come Chinchilla ha ridisegnato i modelli successivi

A partire dal 2022-2023, la maggior parte dei nuovi modelli importanti ha applicato (almeno in parte) i principi Chinchilla:

Llama 1 (Meta, 2023): modelli da 7B-65B addestrati su 1-1.4T token, deliberatamente scelti per essere "compute-optimal per inferenza", non per training.
Llama 2: 7B-70B addestrati su 2T token, spingendo oltre la proporzione Chinchilla per ottimizzare le performance a parità di parametri.
Mistral 7B: qualità superiore a Llama 2 13B nonostante metà dei parametri, in parte grazie a training su più token di qualità superiore.
GPT-4 e modelli frontier successivi: OpenAI non ha reso pubblici i dettagli, ma la community ritiene che siano stati addestrati con proporzioni dati/parametri più alte rispetto a GPT-3.

Il limite di Chinchilla: la "legge" è una approssimazione

Il paper Chinchilla assumeva che il budget di compute fosse la variabile da ottimizzare: dati quanto compute puoi spendere, qual è il miglior modello da costruire? Questo ha senso durante il training. Ma per l'inferenza, la prospettiva cambia: un modello più piccolo costa meno da eseguire per ogni richiesta. Se si prevede di servire miliardi di richieste, potrebbe valere la pena spendere più compute durante il training per ottenere un modello più piccolo con le stesse capability — ciò che Meta chiama esplicitamente la motivazione per Llama.

Ricerche successive (2023-2024) hanno anche dimostrato che spingere il training ben oltre le proporzioni Chinchilla-optimal — con dataset da 10-15 trilioni di token invece di 1.4T — continua a migliorare le performance dei modelli più piccoli, suggerendo che la proporzione 1:20 era ottimale per il 2022 ma i modelli sono più "data-hungry" di quanto previsto.

Link alla fonte originale

Hoffmann et al. — "Training Compute-Optimal Large Language Models" →

Pubblicato su arXiv il 29 marzo 2022. Autori: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch e altri del team Google DeepMind. Il nome "Chinchilla" è il nome interno del modello — una tradizione DeepMind di usare nomi di animali (Gopher, Flamingo, Chinchilla, Gemma).