Jason Wei — Da Chain-of-Thought a Emergent Abilities, il Ricercatore Dietro le Idee Chiave

Chi è: Jason Wei è un giovane ricercatore AI, ex Google Brain (2020-2022), oggi a OpenAI dal febbraio 2023, dove ha contribuito al modello o1. È primo autore di due paper tra i più citati dell'era LLM moderna — Chain-of-Thought Prompting (gennaio 2022) ed Emergent Abilities of Large Language Models (giugno 2022) — pubblicati a sei mesi di distanza prima ancora del rilascio di ChatGPT.

I due paper che hanno cambiato il prompting

Il paper "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", pubblicato a gennaio 2022 quando Wei era ancora a Google Brain, è oggi citato oltre 12.000 volte secondo Google Scholar. L'idea centrale è semplice ma controintuitiva: chiedere al modello di mostrare i passaggi intermedi del ragionamento — invece che solo la risposta finale — migliora drasticamente l'accuratezza su problemi matematici, di ragionamento simbolico e di senso comune. La differenza è netta: su GSM8K (problemi matematici di scuola elementare), PaLM 540B passa dal 17% di accuratezza al 58% semplicemente aggiungendo "Let's think step by step" o esempi few-shot con ragionamento esplicito.

Sei mesi dopo, a giugno 2022, Wei è primo autore di "Emergent Abilities of Large Language Models", dove documenta un fenomeno empirico: alcune capacità appaiono in modo discontinuo all'aumentare della scala. Sotto una certa soglia di parametri o compute, il modello fallisce in modo casuale; sopra la soglia, l'accuratezza esplode. È il fenomeno della "fase di transizione" applicato all'AI, e ha modellato per anni il modo in cui ricercatori e investitori hanno pensato allo scaling. Anche dove il paper è stato successivamente criticato — alcuni sostengono che l'emergenza sia un artefatto delle metriche, non dei modelli — il framework concettuale ha plasmato il discorso pubblico sull'AI per tutto il 2022-2024.

Da Google Brain a OpenAI: il percorso

Wei si laurea a Dartmouth nel 2020 e entra direttamente in Google Brain come Senior Research Scientist nel team di Quoc Le, una delle figure più rispettate del deep learning. Tra il 2021 e il 2022 firma o co-firma una sequenza di paper che diventeranno riferimenti: oltre a CoT ed Emergent, è co-autore di "Finetuned Language Models Are Zero-Shot Learners" (FLAN, 2021), il paper che introduce l'instruction tuning come tecnica standard per migliorare la capacità dei modelli di seguire istruzioni in zero-shot — un precursore concettuale di RLHF e degli assistant model moderni.

A febbraio 2023, pochi mesi dopo il rilascio di ChatGPT, Wei passa a OpenAI. Il movimento ricalca quello di altri ricercatori Brain che hanno migrato verso laboratori più focalizzati sui modelli frontier (Noam Shazeer in Character.AI poi tornato a Google, Aidan Gomez in Cohere, Yi Tay in Reka). A OpenAI, Wei è stato uno dei ricercatori chiave nello sviluppo di o1, il modello "reasoning" rilasciato nel settembre 2024, che internalizza chain-of-thought durante il training invece di lasciarla emergere solo dal prompting. È la chiusura del cerchio: la tecnica che ha contribuito a scoprire come prompting trick diventa una capacità nativa addestrata nel modello.

La tesi centrale: "intuition for what scaling does"

Wei ripete spesso, sul suo blog e su Twitter/X, la stessa frase: l'obiettivo del ricercatore AI moderno è sviluppare "intuition for what scaling does". La capacità di prevedere quali capacità emergeranno aumentando compute, dati e parametri — e quali no — è secondo lui la skill differenziante. Non si impara dai libri di testo classici di machine learning, dove i modelli piccoli si comportano in modo qualitativamente diverso dai modelli grandi. Si impara empiricamente, lavorando con modelli di scala diversa e notando i salti.

Questa visione ha conseguenze pratiche sul tipo di ricerca che vale la pena fare. Wei sostiene che molte aree tradizionali del NLP — feature engineering, architetture custom per task specifici, pipeline complesse — sono diventate irrilevanti perché la scala risolve i problemi più velocemente di qualsiasi tecnica specifica. Il valore si è spostato verso: capire come i modelli falliscono, costruire eval che catturano capacità reali e non leaderboard hacking, sviluppare tecniche di training (CoT, RLHF, RLAIF) che si scalano con il modello sottostante. È una visione che si è dimostrata largamente corretta tra 2022 e 2024, anche se sta affrontando le sue prime crepe con i dati di training ormai vicini al limite di Internet.

Blog, Twitter e il modello del ricercatore "in pubblico"

Wei è una delle voci più seguite della community AI su Twitter/X (oltre 70.000 follower) e mantiene un blog personale su jasonwei.net dove pubblica riflessioni metodologiche sulla ricerca AI: come scegliere problemi su cui lavorare, come scrivere paper, come scrivere prompt utili, come pensare alle eval. È un modello di carriera nuovo: ricercatore senior in un laboratorio frontier che usa social e blog per costruire reputazione e influenza nel settore, in parallelo alla pubblicazione accademica tradizionale.

Questo posizionamento è diventato la norma per la nuova generazione di ricercatori AI: Andrej Karpathy, Andrew Ng, Sebastian Raschka, Lilian Weng, Jason Wei stesso e molti altri costruiscono audience parallele a quella accademica, traducendo ricerca tecnica in concetti accessibili. Per gli sviluppatori che vogliono restare aggiornati senza leggere ogni preprint su arXiv, il blog di Wei è uno dei pochi punti di osservazione di alta qualità su come pensano dall'interno i ricercatori dei laboratori frontier. La sua produzione è meno prolifica di altri (poche decine di post in vari anni), ma ogni post tende a condensare anni di esperienza in poche pagine.

Link alla fonte originale

jasonwei.net →

Sito personale di Jason Wei con elenco dei paper, dei talk e dei post di blog. Profilo Google Scholar e Twitter/X linkati dalla home.