A Path Towards Autonomous Machine Intelligence — Yann LeCun

Chi è: Yann LeCun, Chief AI Scientist di Meta (Facebook AI Research). Co-vincitore del Turing Award 2018 con Hinton e Bengio. Padre delle CNN (reti neurali convoluzionali). È il più autorevole scettico del paradigma LLM all'interno dei grandi laboratori. Il suo disaccordo con Hinton sul futuro dell'AI è diventato uno dei dibattiti tecnici più seguiti del 2023-2024.

La tesi centrale

LeCun sostiene che i Large Language Models, per quanto impressionanti, non sono un percorso verso l'intelligenza generale. Sono strumenti statistici sofisticati, non sistemi che capiscono il mondo. Per costruire AI davvero intelligente servono world models — rappresentazioni interne di come il mondo fisico funziona, di come gli oggetti si comportano nello spazio, di come le cause producono effetti nel tempo.

La distinzione non è sottile. Un LLM impara correlazioni tra sequenze di token nel testo. Un world model impara a prevedere stati futuri del mondo a partire da stati presenti, incorporando vincoli fisici, causalità, persistenza degli oggetti. LeCun argomenta che la seconda capacità è necessaria per qualsiasi forma di pianificazione, ragionamento robusto o azione nel mondo fisico — cose che gli LLM, per costruzione, non possono fare in modo affidabile.

Il paper del 2022 su OpenReview — lungo circa 60 pagine, tecnico e denso — è il documento programmatico più completo che LeCun abbia mai scritto. Non è una critica generica: propone un'architettura alternativa concreta, motivata teoricamente e collegata alla neurosciienza cognitiva.

Il problema del next-token prediction

Predire la prossima parola è un modo inefficiente di imparare come funziona il mondo. Un bambino di 4 anni capisce più fisica intuitiva di qualsiasi LLM, pur avendo elaborato miliardi di volte meno dati. La ragione è strutturale: i testi descrivono il mondo, ma non lo simulano. Manca la causalità.

Quando un bambino vede un bicchiere cadere e rompersi, apprende un modello causale: oggetti fragili cadono e si rompono, la caduta causa la rottura, la rottura è irreversibile. Questo modello è compresso, generalizzabile, e predicibile in contesti nuovi. Un LLM addestrato su milioni di testi che descrivono bicchieri che cadono e si rompono non ha lo stesso modello: ha una distribuzione di probabilità su sequenze di parole che tipicamente co-occorrono. La differenza operativa diventa evidente non appena si esce dalla distribuzione del training.

LeCun usa spesso l'analogia dei dati video: un bambino vede circa 500 ore di video al giorno di vita nei suoi primi anni. Un LLM addestrato su text-only riceve informazioni sul mondo filtrate attraverso il linguaggio umano — già una rappresentazione di secondo livello, non la realtà diretta. Per LeCun, saltare la percezione diretta del mondo è un errore fondamentale di architettura, non un dettaglio implementativo.

Joint Embedding Predictive Architecture (JEPA)

La proposta concreta di LeCun si chiama JEPA: Joint Embedding Predictive Architecture. L'idea centrale è spostare la predizione dal livello dei dati grezzi (pixel, token) al livello delle rappresentazioni astratte nello spazio latente.

In un modello generativo classico — come un diffusion model o un LLM — il sistema predice l'output esatto: il pixel preciso, il token preciso. Questo richiede di modellare tutto il dettaglio sensoriale, compresi aspetti irrilevanti per la comprensione. JEPA invece predice una rappresentazione di ciò che succederà, non i dettagli sensoriali. Il sistema apprende a codificare sia l'input che l'output in uno spazio astratto condiviso, e poi predice rappresentazioni di output a partire da rappresentazioni di input.

L'effetto pratico: il sistema impara a ignorare i dettagli irrilevanti (rumore, variazioni di illuminazione, sfondo) e a concentrarsi sulle strutture causalmente rilevanti. L'apprendimento è auto-supervisionato — nessuna label richiesta. LeCun collega JEPA esplicitamente a come il cervello sembra operare: non registrando fotografie del mondo ma costruendo modelli predittivi astratti.

Encoder: mappa input e output target nello stesso spazio latente
Predictor: prevede la rappresentazione dell'output partendo dalla rappresentazione dell'input e da informazioni contestuali
Nessuna generazione: il sistema non deve ricostruire pixel o token, eliminando la pressione a memorizzare dettagli irrilevanti
Gerarchia temporale: JEPA può operare su scale temporali diverse, come i sistemi biologici

I-JEPA (Image-JEPA) e V-JEPA (Video-JEPA) sono le prime realizzazioni pubbliche dell'architettura, pubblicate da Meta nel 2023-2024. I risultati su benchmark di visione sono competitivi con i migliori sistemi supervisionati, usando molto meno supervisione.

Il disaccordo con Hinton

Il dibattito pubblico tra LeCun e Hinton è diventato uno degli spettacoli intellettuali più interessanti del 2023-2024. I due condividono il Turing Award 2018 — il Nobel dell'informatica — e hanno entrambi contribuito a costruire il deep learning moderno. Ma le loro conclusioni su dove sta andando il campo sono radicalmente divergenti.

Hinton crede che i sistemi neurali attuali stiano sviluppando qualcosa di simile alla comprensione, che le analogie con il cervello umano siano più che metaforiche, e che il rischio esistenziale dell'AI superintelligente sia reale e imminente. Per questo ha lasciato Google nel 2023, dichiarando di voler parlare liberamente.

LeCun risponde in modo sistematico: no, la differenza tra simulazione statistica del linguaggio e comprensione è categoriale, non di grado. Scalare i parametri non cambierà questo. I sistemi attuali non hanno world models, non hanno causalità, non hanno pianificazione gerarchica. Sono potenti interpolatori, non agenti che comprendono. La preoccupazione esistenziale di Hinton è, per LeCun, basata su una sopravvalutazione di cosa gli LLM sappiano fare davvero.

Il dibattito è reso più complesso dalla posizione istituzionale dei due: Hinton parla da ex-insider ora libero, LeCun parla come Chief Scientist di Meta mentre contemporaneamente critica la direzione principale del campo. Questa tensione è produttiva ma rende difficile separare l'argomento tecnico dalla posizione strategica.

La posizione sul rischio AI

LeCun è esplicitamente e vocalmente anti-doomer. Non crede che l'AI attuale o prossima futura possa diventare pericolosa in modo esistenziale. Il suo argomento principale: sistemi che non hanno world models non possono pianificare. Sistemi che non possono pianificare non possono decidere di perseguire obiettivi che entrano in conflitto con gli umani. Il rischio esistenziale richiede agency, e gli LLM non hanno agency.

Il rischio reale, secondo LeCun, è il misuso umano dell'AI: disinformazione, concentrazione del potere, automazione senza supporto ai lavoratori. Questi sono problemi seri, ma sono problemi politici e sociali, non problemi di allineamento tecnico. Non richiedono di fermare lo sviluppo dell'AI — richiedono buona governance.

Questa posizione è minoritaria tra i big names del campo. La maggioranza dei ricercatori di safety — e figure come Hinton, Bengio, Yoshua Bengio stesso — vedono rischi più imminenti. LeCun risponde che la comunità safety sta operando su modelli di AI che non esistono ancora e potrebbe non esistere mai con l'architettura attuale. Stai costruendo barriere per una minaccia speculativa e trascurando rischi presenti concreti.

Cosa lo rende unico nel dibattito

LeCun è l'unico Chief Scientist di un big lab che critica apertamente la direzione principale del campo. Non è un osservatore esterno, un filosofo, un giornalista. Costruisce sistemi AI ogni giorno, pubblica paper tecnici, gestisce uno dei laboratori di ricerca AI più grandi al mondo. Quando dice che gli LLM non sono la via verso l'AGI, non lo dice come critica dall'esterno: lo dice dall'interno, con accesso a tutto ciò che Meta sta costruendo.

La sua metafora preferita — ripetuta in decine di talk pubblici — è efficace: "Scalare gli LLM per arrivare all'AGI è come costruire un muro sempre più alto per arrivare sulla luna. I progressi sono reali, il muro cresce, ma la luna è ancora lì dove era." Non è impossibile per principio, ma stai ottimizzando la metrica sbagliata.

Che abbia ragione o torto, LeCun fa la cosa più utile in un campo dominato dall'hype: insiste sulla distinzione tra "cosa funziona bene" e "cosa capisce davvero." Questa distinzione, anche se non porta a JEPA come soluzione, è necessaria per fare scienza seria invece di benchmark farming.

Link alla fonte originale

openreview.net — A Path Towards Autonomous Machine Intelligence →

Paper tecnico ~60 pagine, EN. Talk pubblici su YouTube. Lettura tecnica.