Scaling Laws — perché più grande funziona meglio, matematicamente

Chi è: Jared Kaplan, Sam McCandlish e altri ricercatori OpenAI. Paper pubblicato su arXiv il 23 gennaio 2020. Kaplan è diventato Chief Science Officer di Anthropic. Le equazioni di questo paper sono state usate per pianificare GPT-3, GPT-4, Claude, Gemini — ogni modello frontier degli ultimi anni è stato costruito in base a queste relazioni.

La scoperta

Il paper parte da una domanda empirica semplice: se cambio sistematicamente la dimensione di un modello linguistico, la quantità di dati su cui lo addestro, e il compute totale impiegato nel training, cosa succede alla performance? La risposta, che il team di Kaplan misura con esperimenti meticolosi su modelli di diverse scale, è sorprendente per la sua regolarità matematica.

Le relazioni seguono leggi di potenza (power laws): grafici log-log che mostrano linee rette. Formalmente:

La loss del modello diminuisce come una funzione power-law di N (numero di parametri), con esponente stabile in un ampio range di scala.
La loss diminuisce come una funzione power-law di D (numero di token di training), con un esponente diverso ma altrettanto stabile.
La loss diminuisce come una funzione power-law di C (compute totale, misurato in FLOPs), in modo prevedibile.

La parte cruciale: nell'intervallo misurato — che copre diversi ordini di grandezza — non si vede nessun plateau. Non c'è un punto in cui la curva si appiattisce. Se hai più parametri, dati o compute, il modello migliora, in modo quantificabile prima ancora di addestrarlo.

L'implicazione è enorme: se vuoi un modello migliore, scala. Non serve inventare nuove architetture o nuovi algoritmi. Scala ciò che hai. Il miglioramento arriverà secondo una legge matematica che puoi misurare in anticipo.

Il triangolo compute-dati-parametri

La scoperta più operativamente importante del paper riguarda il bilanciamento ottimale tra le tre variabili quando il budget di compute è fisso.

Supponiamo di avere un budget di 10^22 FLOPs da spendere in training. Come distribuirli? Costruire un modello enorme con pochi dati di training? Addestrare un modello piccolo per molti passi su tanti dati? Il paper risponde: esiste un bilanciamento ottimale tra N e D per ogni budget C dato. Non conviene investire tutto nei parametri trascurando i dati, né viceversa. C'è una frontiera di Pareto che il paper mappa empiricamente.

Questo ha implicazioni immediate e pratiche per chiunque stia pianificando il training di un modello frontier. Dati N miliardi di dollari di budget GPU, quanti parametri costruire? Quanti token raccogliere? Il paper fornisce le equazioni per rispondere a queste domande prima di spendere un centesimo in training effettivo.

È la differenza tra ingegneria e alchimia. Prima di questo paper, la scelta delle dimensioni del modello era largamente empirica e basata sull'esperienza. Dopo, diventa un'ottimizzazione su una funzione obiettivo misurabile.

Le leggi di Chinchilla (2022)

Il paper originale del 2020 suggeriva, sulla base dei dati allora disponibili, di scalare principalmente i parametri. La conclusione implicita: se hai più compute, costruisci un modello più grande piuttosto che raccogliere più dati.

Nel marzo 2022, DeepMind pubblica "Training Compute-Optimal Large Language Models" (Hoffmann et al.) — diventato rapidamente noto come Chinchilla paper, dal nome del modello presentato. Il risultato è una correzione significativa alle conclusioni del 2020: GPT-3 da 175 miliardi di parametri era stato addestrato su troppo pochi token rispetto a quanto le nuove misurazioni suggerivano come ottimale.

Chinchilla, un modello da soli 70 miliardi di parametri ma addestrato su 1.4 trilioni di token — circa quattro volte di più di GPT-3 — supera GPT-3 su quasi tutti i benchmark. Il bilanciamento ottimale secondo le leggi di Chinchilla è di circa 20 token per parametro: un modello da 10B parametri dovrebbe essere addestrato su almeno 200 miliardi di token.

Questo ha resettato le strategie di training di tutti i laboratori. LLaMA di Meta è stato uno dei primi modelli pubblici esplicitamente progettato secondo le leggi di Chinchilla. Mistral, Falcon, i modelli Anthropic — tutti hanno incorporato questa correzione. Il paper del 2020 aveva stabilito il framework; Chinchilla l'ha calibrato.

Il ruolo nello scaling AI commerciale

Ogni grande investimento in AI infrastructure degli ultimi anni — da Google con Gemini a Meta con LLaMA, da OpenAI con GPT-4 a Microsoft con il suo data center partnership, da Amazon con AWS Trainium agli investimenti di SoftBank in chip AI — è stato giustificato, almeno in parte, con le leggi di scaling.

Il ragionamento è diventato standard nei pitch deck e nei board meeting: "Se aggiungiamo X volte il compute, il modello migliorerà di Y punti su benchmark Z, secondo le relazioni di power-law documentate da Kaplan et al. e calibrate da Hoffmann et al." Non è una previsione qualitativa — è una stima quantitativa con barre di errore derivate da dati empirici.

Le equazioni di Kaplan et al. sono diventate la lingua franca del business AI. I CFO delle grandi aziende tech chiedono ROI basandosi su questi grafici. I venture capitalist valutano le startup AI in base alla loro strategia di scaling. Le scaling laws non sono solo un risultato accademico — sono diventate un framework decisionale per investimenti da miliardi di dollari.

Questo è raro nella storia della scienza applicata: un paper accademico che diventa direttamente operativo nelle decisioni strategiche di alcune delle aziende più capitalizzate al mondo, nello spazio di pochi anni dalla pubblicazione.

I limiti delle scaling laws

Il paper del 2020 risponde alla domanda "come migliorano le performance sul training loss all'aumentare di N, D, C?" Non risponde a domande diverse ma altrettanto importanti.

Prima domanda aperta: quando finiscono i dati? Internet è finito come corpus di training. I modelli frontier più grandi hanno già consumato la maggior parte del testo pubblico di qualità. Le stime suggeriscono che i dati di training di alta qualità potrebbero esaurirsi entro la fine degli anni '20. I laboratori stanno esplorando dati sintetici generati da modelli AI, ma non è chiaro se mantenga le stesse proprietà di scaling.

Seconda domanda: le leggi di scaling valgono per tutte le capability o solo per alcune? Il ragionamento matematico complesso, il coding complesso, la pianificazione a lungo termine — migliorano secondo le stesse power-law del linguaggio generico? Alcune capability sembrano emergere in modo discontinuo, non graduale. Wei et al. nel 2022 documentano queste emergent abilities: capability che sembrano assenti sotto una certa soglia di scala e poi appaiono quasi improvvisamente.

Terza domanda: esistono alternative all'aumentare della scala? Architetture più efficienti, training su dati selezionati di altissima qualità, integrazione con strumenti esterni, ragionamento esplicito con chain-of-thought — tutti questi approcci cercano di ottenere performance migliori con meno compute. I risultati sono promettenti ma non hanno ancora sostituito lo scaling come strategia dominante.

Perché leggerlo

Non è un paper per ML engineer: non descrive architetture, non propone nuovi algoritmi, non introduce nuove tecniche di training. È un paper di misurazione sistematica — e proprio per questo è fondamentale per chiunque voglia capire le forze che guidano l'industria AI.

Capire che "più grande funziona meglio in modo prevedibile e misurabile" spiega perché Google, Microsoft, Meta, Amazon e decine di altri stanno spendendo cento miliardi di dollari in GPU, data center e infrastruttura AI. Non è hype. Non è il semplice ottimismo di chi vuole vendere chip. È la risposta razionale a un'equazione: se conosci la funzione di scaling, e se il plateau non è visibile nell'orizzonte misurabile, l'investimento ottimale è continuare a scalare.

Il dibattito aperto — e genuinamente importante — è su quanto a lungo questa equazione continuerà a valere, e se le capability che emergono dallo scaling raw siano sufficienti per raggiungere i sistemi AI più avanzati, o se siano necessari breakthrough qualitativi di architettura o di approccio. Le scaling laws non rispondo a questo. Definiscono il contesto in cui la domanda ha senso.

Link alla fonte originale

arxiv.org/abs/2001.08361 →

Paper tecnico 72 pagine, EN. Gennaio 2020. Prerequisito per capire ogni decisione di investimento AI.