Salta al contenuto
AImpact
IT EN

Articolo · Profilo e pensiero

Noam Shazeer — Co-Autore di Attention is All You Need, Character.AI, Ritorno Google

Fonte originale: Noam Shazeer · Google Scholar profile — sintesi e rielaborazione in parole proprie.

CondividiLinkedInX

Chi è: Noam Shazeer, ricercatore Google a lungo termine, è uno dei contributori tecnici più rilevanti — e meno noti al pubblico generale — della rivoluzione transformer. Co-autore del paper "Attention is All You Need" (2017), è anche tra gli inventori di Mixture of Experts (MoE) applicato ai language model, di Switch Transformer, di Mesh-TensorFlow. Lascia Google nel 2021 per fondare Character.AI; rientra nel 2024 con un deal da 2,7 miliardi di dollari come co-lead del progetto Gemini.

Il transformer e il decennio Google

Shazeer entra in Google nei primi anni 2000 e lavora per due decenni nel gruppo Brain. Il suo nome compare in alcuni dei paper architetturali più citati della storia del deep learning. Nel 2017 è uno degli otto co-autori di "Attention is All You Need" — il paper che introduce l'architettura transformer, oggi base praticamente universale dei language model. Pur essendo elencato secondo nell'ordine degli autori (Vaswani primo, Shazeer secondo), il suo contributo tecnico è considerato dai colleghi tra i più sostanziali sull'implementazione efficiente del meccanismo di attention.

Negli anni successivi guida o co-firma una serie di paper che estendono il transformer su due assi: scalabilità (come addestrare modelli enormi su molte TPU in parallelo) ed efficienza (come ottenere più capacità per parametro). Mesh-TensorFlow (2018) è il framework che descrive le strategie di partizionamento del calcolo su griglie di acceleratori. "Outrageously Large Neural Networks" (2017) introduce il Sparsely-Gated Mixture-of-Experts layer: invece di attivare tutti i parametri per ogni token, solo un sottoinsieme di "esperti" viene routato dinamicamente. Switch Transformer (2021) porta MoE a trillion-parameter scale ed è il modello da cui derivano architetturalmente molti dei LLM sparse moderni (Mixtral di Mistral, DeepSeek-V3, GLaM di Google).

L'uscita: 2021 e la nascita di Character.AI

Nel 2021 Shazeer e Daniel De Freitas (anch'egli ricercatore Google, lead di LaMDA) lasciano Google per fondare Character.AI. La motivazione raccontata pubblicamente è di natura strategica: i due avevano costruito internamente a Google una versione conversazionale di LaMDA — un chatbot effettivamente utilizzabile da end-user — ma Google rifiutò di rilasciarlo per preoccupazioni di sicurezza, brand risk, e timore di danneggiare la reputazione del motore di ricerca. Shazeer e De Freitas ritengono che la tecnologia sia matura per il deployment consumer; Google ritiene di no. La rottura è netta.

Character.AI lancia nel 2022 una piattaforma di chatbot personalizzati: gli utenti creano "personaggi" con personalità definita (storici, fittizi, terapeuti, tutor, partner romantici virtuali), e conversano con loro. Il prodotto cresce rapidamente: nel 2023 raggiunge 20 milioni di utenti attivi mensili, con tempi medi per sessione superiori a quelli di TikTok per la fascia teen. La valutazione cresce di pari passo: round di Series A nel 2023 a una valutazione di 1 miliardo di dollari, guidato da Andreessen Horowitz. Character.AI diventa uno dei consumer AI app più di successo del periodo post-ChatGPT, secondo solo a ChatGPT stesso per minutaggio totale.

Agosto 2024: il ritorno a Google da 2,7 miliardi

Nell'agosto 2024 viene annunciato un deal inusuale. Non un'acquisizione classica: Google paga circa 2,7 miliardi di dollari per una licenza non esclusiva della tecnologia di Character.AI e per il rientro come dipendenti di Shazeer, De Freitas, e una parte significativa del team di ricerca. Character.AI come società resta indipendente, con un CEO ad interim, e continua a operare la piattaforma consumer. Ma il know-how tecnico — modelli, training recipe, infrastructure — è ora a disposizione di Google.

La struttura del deal riflette il regime regolatorio anti-trust emerso nel 2024 negli Stati Uniti e in Europa: acquisizioni dirette di startup AI di frontiera vengono scrutinate dalla FTC e dalla Commissione Europea (come visto con il caso Microsoft-Inflection nel 2024). Pagando per una licenza tecnologica anziché acquistando l'equity, Google evita parte di quel scrutinio. Il pattern viene replicato da Microsoft-Inflection, Amazon-Adept, e altri "acqui-license" del 2024. Shazeer rientra a Google come co-lead del progetto Gemini, con responsabilità diretta sulla scelta architetturale e sul training delle versioni successive del modello.

La parabola e il significato

La traiettoria di Shazeer è la più nitida illustrazione di una tensione strutturale del settore AI 2017-2024: i contributori tecnici dei breakthrough sono concentrati in poche aziende; quando se ne vanno per costruire prodotti che le aziende madri rifiutano di rilasciare, possono creare valore enorme; ma alla fine il know-how torna alle aziende grandi, perché solo loro possono permettersi il compute per la generazione successiva di modelli. Shazeer parte da Google, costruisce qualcosa che Google non aveva voluto costruire, lo trasforma in un'azienda da miliardi, e torna a Google con una posizione e una compensation che riflettono quel passaggio.

Per la community ML, Shazeer è anche un esempio del valore del lavoro infrastrutturale e architetturale rispetto al lavoro applicativo. Pochi dei suoi paper hanno copertina mediatica; molti dei suoi paper sono tra i più citati dell'intero campo. La sua firma compare su un numero straordinariamente alto dei lavori che hanno cambiato cosa è possibile fare con i language model. Il rientro a Google nel 2024 lo posiziona di nuovo al centro della corsa frontier verso AGI, in una fase in cui Gemini è uno dei tre o quattro sistemi che possono ragionevolmente puntare a quel traguardo.


Link alla fonte originale

Google Scholar — Noam Shazeer →

Profilo Google Scholar con elenco completo delle pubblicazioni e citazioni. Per il contesto del deal Google-Character.AI del 2024 si rimanda alle cronache su TechCrunch, The Information e Bloomberg.