The Scaling Hypothesis — la profezia di Gwern

Chi è: Gwern Branwen, pseudonimo di un ricercatore americano che mantiene l'anonimato. Gestisce gwern.net — uno dei blog più peculiari e influenti nell'AI community. Nessun dottorato, nessuna affiliazione istituzionale. Ha scritto saggi influenti su AI, farmacologia, letteratura, statistiche bayesiane. Il suo articolo "The Scaling Hypothesis" è stato scritto nel dicembre 2020 — quando GPT-3 era appena uscito — e ha anticipato quasi tutto ciò che è successo dopo.

La tesi nel 2020

Dicembre 2020. GPT-3 ha sei mesi. I benchmark sono impressionanti ma il dibattito nel ML community è ancora dominato da scettici: il modello fa pattern matching sofisticato, non capisce davvero nulla, lo scaling ha rendimenti decrescenti, stiamo avvicinandoci ai limiti di ciò che le reti neurali possono fare senza modifiche architetturali fondamentali. La posizione mainstream è quella di aspettarsi un plateau.

Gwern argomenta l'esatto contrario — con dati, non con intuizioni. La sua tesi centrale: i modelli linguistici stanno dimostrando che l'intelligenza non è un fenomeno discreto o emergente in modo imprevedibile. È un continuum, e scala con il compute in modo regolare e misurabile. Ogni raddoppio di scala — parametri, dati di training, compute — produce miglioramenti consistenti e prevedibili su quasi ogni task linguistico. Se questa tendenza continua, i modelli futuri saranno molto più capaci degli attuali non perché avranno architetture rivoluzionarie, ma semplicemente perché saranno più grandi e addestrati su più dati.

L'argomento non è presentato come intuizione o come previsione ottimista — è presentato come inference from evidence. Gwern costruisce il caso empirico: citando le scaling laws di Kaplan et al. (2020), analizzando i grafici di performance dei modelli su diversi benchmark in funzione del compute, mostrando che le curve sono power-law pulite senza segnali di plateau imminente. Non "credo che i modelli diventeranno molto capaci" — "i dati mostrano che questo è quello che sta succedendo, e non c'è evidenza che si fermerà presto."

Perché era convincente ma non mainstream

Nel 2020, perché la posizione mainstream nel ML era così diversa dalla tesi di Gwern, nonostante i dati fossero pubblicamente disponibili? È una domanda che vale la pena porsi — perché la risposta dice qualcosa sui meccanismi dell'errore di predizione in contesti tecnici.

Il paper di Kaplan et al. sulle scaling laws esisteva. I benchmark di GPT-3 erano pubblici. I grafici erano disponibili a chiunque volesse guardare. Eppure la comunità dei ricercatori ML, nel suo insieme, non aveva internalizzato le implicazioni con la stessa chiarezza di Gwern.

Una parte della risposta è incentivi: molti ricercatori ML lavorano su architetture specializzate, su tecniche di training efficienti, su metodi che migliorano performance su task specifici. Se "più scala = più intelligenza" è vero in modo robusto, gran parte di questo lavoro diventa meno importante — i guadagni architetturali vengono dominati dai guadagni di scala. C'era un bias strutturale verso non credere pienamente alla scaling hypothesis, perché crederci avrebbe implicato che il proprio filone di ricerca era meno centrale di quanto si pensasse.

Gwern non aveva questi incentivi. Non aveva un laboratorio da finanziare, studenti di dottorato da formare su un programma di ricerca specifico, paper da pubblicare in un filone particolare. Poteva guardare i dati e trarne le conclusioni più dirette senza dover difendere un programma di ricerca esistente. L'anonimato aiuta: non c'è una reputazione accademica che richiede coerenza con posizioni precedenti.

Le previsioni specifiche

La parte più verificabile dell'essay di Gwern — e quella che in retrospettiva è più impressionante — sono le previsioni specifiche che fa su cosa si aspetterebbe da modelli scalati a GPT-4 e oltre, scritte nel 2020 quando GPT-4 non esisteva.

Gwern prevedeva: emergenza di capacità di ragionamento multi-step su problemi che richiedono inferenza in più passaggi; capacità di seguire istruzioni complesse attraverso few-shot learning (mostrare esempi nel prompt invece di training esplicito); generazione di codice funzionante in linguaggi di programmazione comuni; capacità di transfer su task non visti in training, inclusi task che all'epoca sembravano richiedere comprensione genuina piuttosto che pattern matching; allucinazione — generazione di contenuto plausibile ma falso — come limite strutturale del paradigma, non come bug correggibile con più training.

Quasi tutte queste previsioni si sono verificate in GPT-4, rilasciato nel 2023 — tre anni dopo che le aveva scritte. Soprattutto l'allucinazione: nel 2020 molti ricercatori pensavano che con abbastanza training data i modelli avrebbero smesso di allucinare. Gwern argomentava che l'allucinazione è strutturale — un modello che produce output plausibili in base a distribuzione statistica produrrà inevitabilmente output plausibili-ma-falsi in situazioni dove non ha informazioni sufficienti. Questa intuizione si è rivelata corretta e rimane un limite fondamentale dei LLM nel 2024-2025.

La critica all'elitismo accademico

C'è una corrente critica implicita che attraversa l'essay di Gwern — non esplicitata in modo aggressivo, ma presente. Perché ricercatori con dottorato, laboratori, risorse computazionali, e accesso a collaboratori di alto livello non hanno visto ciò che lui — anonimo, senza affiliazione, senza GPU farm — aveva visto dai dati pubblici?

La risposta che suggerisce: il sistema accademico e quello dei laboratori tech crea incentivi che sistematicamente distorcono la capacità di fare previsioni accurate sulle traiettorie tecnologiche. La specializzazione richiesta per pubblicare su riviste di alto livello porta a visioni narrow. Le strutture di incentivo favoriscono il lavoro incrementale su programmi di ricerca esistenti piuttosto che le valutazioni ad alto livello delle traiettorie del campo. La pressione a non fare previsioni falsificabili — perché possono essere verificate — porta a vagueness strategica.

Gwern può fare previsioni specifiche e falsificabili perché non ha nulla da perdere se si sbaglia, e credibilità da guadagnare se ha ragione. La struttura degli incentivi di un blog personale con pseudonimo è fondamentalmente diversa da quella di un paper accademico o di un blog aziendale. Questo non rende il suo metodo superiore in generale — ma crea le condizioni per un tipo di onestà intellettuale più difficile da mantenere in contesti istituzionali.

La scaling hypothesis nel 2025

Nel 2025, la "scaling hypothesis" nella sua versione originale ha vinto il dibattito — ma con asterischi importanti che Gwern stesso ha aggiunto nel tempo. Il sito gwern.net non è un documento statico: gli essay vengono aggiornati, annotati, arricchiti. La scaling hypothesis non fa eccezione.

I modelli scalano — questo è confermato. Ma i dati testuali di alta qualità si stanno esaurendo in modo più rapido del previsto. Le leggi di scaling originali di Kaplan (2020) sono state revisionate da Hoffman et al. (Chinchilla, 2022): per un dato compute budget, i modelli precedenti erano overparametrized e underdatad. L'ottimizzazione del compute richiede più dati e meno parametri di quanto si pensasse.

Il reasoning migliora con RL post-training — o1, o3, Claude Sonnet con thinking — in modi che non sono puri scaling di parametri e dati. C'è una dimensione ortogonale allo scaling "classico" che si chiama "inference-time compute": invece di addestrare modelli più grandi, si alloca più compute al momento dell'inferenza per fare reasoning più lungo e strutturato. Questo era meno previsto dalla scaling hypothesis originale.

Le leggi di scaling valgono per certi tipi di capability in modo più robusto che per altri. Il language modeling loss scende in modo pulito con la scala. Ma le capability emergenti — quelle che appaiono in modo quasi discontinuo dopo certi threshold di scala — sono meno prevedibili. E la relazione tra loss e capability su task specifici non è sempre lineare o prevedibile.

Il contributo di Gwern rimane, con questi asterischi: ha articolato prima di chiunque altro la direzione in cui stava andando il campo, con ragionamento verificabile basato su dati pubblici. Non ha ragione su tutto — nessuno ce l'ha su previsioni tecnologiche a distanza di anni. Ma ha avuto ragione su più cose, in modo più specifico, e più presto della maggior parte dei ricercatori professionisti. E ha reso il suo ragionamento completamente trasparente e falsificabile — un standard più alto di quello che la maggior parte degli esperti si impone.

Link alla fonte originale

gwern.net/scaling-hypothesis →

Essay originale su gwern.net. Aggiornato nel tempo. EN. Lungo ~15.000 parole.