Emergent Abilities of Large Language Models — Le Capability che Appaiono Solo con la Scala

Cos'è: "Emergent Abilities of Large Language Models" (Jason Wei et al., Google Research + Stanford, giugno 2022) ha proposto una definizione formale di "abilità emergente" nei modelli linguistici: una capability che resta sostanzialmente al livello di una scelta casuale fino a una certa scala critica del modello, e poi appare in modo discontinuo. Il paper ha documentato decine di esempi su aritmetica, ragionamento multi-step e instruction following. Un anno dopo, un paper di Stanford (Schaeffer et al., 2023) ha sostenuto che molte di queste emergenze sono artefatti delle metriche scelte, non fenomeni reali. Il dibattito ha cambiato il modo in cui la community legge i grafici di scaling.

La definizione e perché era nuova

Le scaling laws di OpenAI (Kaplan et al., 2020) avevano stabilito che le metriche di loss dei LLM scalano in modo regolare e prevedibile: raddoppia parametri, dati o compute, e la perplexity scende lungo una legge di potenza. Era una storia di progresso continuo e ordinato. Il paper di Wei et al. ha introdotto un'osservazione complementare e potenzialmente più inquietante: alcune capability concrete — risolvere problemi aritmetici a più passi, seguire istruzioni complesse, fare ragionamento simbolico — non scalano in modo continuo. Restano al livello del caso fino a una scala-soglia, poi compaiono improvvisamente.

La definizione formale del paper è precisa: una abilità è emergente se "non è presente in modelli più piccoli ma è presente in modelli più grandi". Operativamente: si misura la performance del modello su un task come funzione della scala (parametri, training compute, dati), si traccia il grafico, e si guarda se appare un salto improvviso oltre il livello casuale. La discontinuità è la firma dell'emergenza.

Gli esempi documentati nel paper

Il paper ha raccolto un catalogo dettagliato di abilità emergenti osservate su modelli tra 10^21 e 10^24 FLOPs di training compute. Tra le più citate:

Aritmetica multi-cifra: addizione e moltiplicazione di numeri a 3+ cifre — al livello del caso fino a circa 10^22 FLOPs, poi accuracy che sale rapidamente verso il 50-80%.
Ragionamento multi-step (BIG-Bench Hard, word problems): performance praticamente nulla sui modelli piccoli, comparsa improvvisa oltre una certa soglia, soprattutto con tecniche di prompting come chain-of-thought.
Instruction following: la capacità di seguire istruzioni complesse formulate in linguaggio naturale appare in modo discontinuo con la scala, ed è alla base del successo di tecniche come RLHF e di prodotti come ChatGPT.
Modular arithmetic, IPA transliterate, logical deductions: tutti task con curve di scaling caratteristicamente "a gradino" piuttosto che lisce.

L'implicazione pratica era importante: se molte capability utili emergono solo oltre una soglia di scala, non è possibile prevedere quali abilità avrà GPT-5 osservando GPT-3 — perché capability completamente nuove potrebbero comparire al passaggio successivo. Questo ha contribuito a inquadrare il problema della predictability dei sistemi AI come centrale per la safety e per la pianificazione strategica.

La controversia: il paper di Schaeffer (Stanford, 2023)

Nel maggio 2023, un paper di Rylan Schaeffer, Brando Miranda e Sanmi Koyejo (Stanford) — "Are Emergent Abilities of Large Language Models a Mirage?" — ha proposto una critica precisa e largamente convincente. L'argomento centrale: le emergenze osservate sono in larga parte artefatti della scelta della metrica, non proprietà intrinseche dei modelli.

L'esempio canonico è l'aritmetica esatta. Se la metrica è "accuracy" — il problema è risolto solo se la risposta è esattamente corretta — la performance resta a zero fino a quando il modello non comincia a produrre risposte intere giuste, e poi sale rapidamente. Sembra emergenza. Ma se si usa una metrica continua — ad esempio "token edit distance" tra la risposta del modello e la risposta corretta — la curva diventa liscia e regolare. Il modello stava migliorando gradualmente da sempre; era solo che la metrica all-or-nothing lo nascondeva.

Il paper Stanford ha mostrato che cambiare metrica trasforma molte delle curve emergenti di Wei et al. in curve continue e prevedibili. La conclusione: l'emergenza, in molti casi, non è una proprietà del modello — è una proprietà del nostro modo di misurare.

Perché il dibattito è ancora aperto

La critica di Schaeffer è valida per molti task, ma non per tutti. Alcune capability — in particolare quelle che dipendono da catene multi-step in cui un solo errore intermedio fa fallire l'intera soluzione — sembrano genuinamente discontinue. Se un modello deve eseguire 10 passaggi in sequenza per arrivare alla risposta giusta e ogni passaggio ha probabilità p di essere corretto, la probabilità di successo totale è p^10. Questa funzione ha una forma intrinsecamente "a gradino" rispetto a p, indipendentemente dalla metrica scelta.

C'è anche una connessione importante con il fenomeno del grokking (Power et al., OpenAI, 2022): in alcuni regimi di training, un modello passa attraverso un lungo periodo di overfit con performance bassissima su test, poi all'improvviso "capisce" il task e raggiunge accuracy quasi perfetta. Anche questo è un fenomeno discontinuo nel tempo di training, parallelo a quello osservato da Wei et al. lungo l'asse della scala. La connessione tra le due transizioni di fase non è ancora pienamente compresa, ma molti ricercatori sospettano che entrambe riflettano un cambio di regime nello spazio dei rappresentazioni interne del modello.

L'eredità: come si leggono oggi i grafici di scaling

Indipendentemente da chi abbia ragione nel dibattito specifico, il paper di Wei et al. ha cambiato in modo durevole come la community presenta e legge i risultati di scaling. Oggi è prassi standard: (1) riportare sia metriche all-or-nothing sia metriche continue; (2) tracciare le curve su scala log per identificare regimi diversi; (3) distinguere tra capability che scalano in modo continuo e capability che mostrano transizioni di fase; (4) essere cauti nel prevedere il comportamento di modelli più grandi sulla base di estrapolazioni naïve.

Per la safety, il dibattito ha implicazioni concrete. Se le capability frontier emergono in modo davvero discontinuo, prepararsi a un modello che fa "molto di più" del precedente diventa difficile. Se invece sono in larga parte artefatti metrici, l'estrapolazione resta affidabile. La verità sembra stare nel mezzo: alcune capability emergono in modo davvero brusco, altre solo in apparenza. La domanda di quali siano davvero discontinue resta una delle più importanti del campo.

Link alla fonte originale

Wei et al. — "Emergent Abilities of Large Language Models" →

Pubblicato su arXiv il 15 giugno 2022. Autori principali: Jason Wei (Google Brain, ora OpenAI), Yi Tay, Rishi Bommasani (Stanford CRFM), Colin Raffel, Barret Zoph, Sebastian Borgeaud e altri. Critica successiva: Schaeffer et al., "Are Emergent Abilities of Large Language Models a Mirage?", NeurIPS 2023 (Outstanding Paper Award).