JEPA — Yann LeCun e l'Alternativa Architetturale ai LLM Generativi

Cos'è: JEPA — Joint Embedding Predictive Architecture — è la famiglia di modelli proposta da Yann LeCun e dal team Meta FAIR come alternativa architetturale ai grandi modelli generativi auto-regressivi. L'idea centrale è semplice e radicale: invece di predire token o pixel mancanti (come fanno GPT e i modelli di diffusione), JEPA predice rappresentazioni latenti di parti di input mascherate. La famiglia include I-JEPA (immagini, gennaio 2023), V-JEPA (video, febbraio 2024) e V-JEPA 2 (2024), ed è la concretizzazione tecnica di una posizione che LeCun sostiene almeno dal 2022: i LLM da soli non porteranno a una vera intelligenza, serve un'architettura diversa per la comprensione del mondo.

La posizione di LeCun: perché i LLM non bastano

Yann LeCun, Chief AI Scientist di Meta e premio Turing 2018 (con Hinton e Bengio), è dal 2022 il critico più visibile e tecnicamente argomentato dell'approccio auto-regressivo dominante. La sua tesi, sintetizzata nel position paper "A Path Towards Autonomous Machine Intelligence" (giugno 2022), è che i LLM sono fondamentalmente limitati perché operano nello spazio dei token: ogni errore di predizione si compone esponenzialmente sequenza dopo sequenza, e il modello non ha alcun modello interno del mondo fisico, del tempo, della causalità o della pianificazione gerarchica.

L'argomento più tecnico riguarda l'efficienza informativa. Predire ogni pixel di un fotogramma video — come fanno i modelli generativi visivi — significa spendere capacità modello su dettagli irrilevanti: texture, rumore, illuminazione locale. La gran parte della varianza pixel-per-pixel è entropia non utile. LeCun argomenta che un sistema cognitivo dovrebbe predire cosa succederà a livello concettuale, non esattamente come apparirà a livello di pixel. Questo è esattamente ciò che fanno gli esseri umani quando immaginano scenari futuri: non renderizzano fotogrammi mentali, manipolano rappresentazioni astratte.

L'architettura JEPA: predire embedding, non pixel

JEPA è costruita su tre componenti: un encoder di contesto che processa la porzione visibile dell'input, un encoder target che processa la porzione mascherata, e un predictor che, dato l'embedding del contesto, deve produrre l'embedding del target. La loss è calcolata nello spazio degli embedding, non nello spazio dell'input. In pratica: il modello deve indovinare la rappresentazione semantica di ciò che non vede, non ricostruirne i pixel.

Questo elimina il "burden" computazionale di generare contenuto pixel-accurate e costringe il modello a imparare rappresentazioni che catturano regolarità semantiche del mondo. Il rischio tecnico — noto come collasso rappresentazionale — è che gli encoder convergano a produrre embedding costanti, rendendo banale la predizione. JEPA usa tecniche come stop-gradient sull'encoder target e aggiornamento via EMA (exponential moving average) dei pesi per prevenire il collasso, ereditando idee dai metodi self-supervised come BYOL e DINO.

I-JEPA e V-JEPA: dalle immagini al video

I-JEPA, pubblicato a gennaio 2023 da Assran, Ballas, Bordes, LeCun e altri, è la prima implementazione concreta. Lavora su immagini ImageNet: maschera regioni semantiche grandi (non singoli patch) e chiede al predictor di indovinare gli embedding di quelle regioni dato il resto. I risultati su linear probing e few-shot learning sono competitivi con MAE, DINO e altri metodi self-supervised, ma con un dettaglio importante: I-JEPA è più veloce da addestrare di MAE (Masked Autoencoder) perché non deve decodificare pixel.

A febbraio 2024 Meta pubblica V-JEPA, l'estensione a video. Il modello viene pre-addestrato su 2 milioni di video da dataset pubblici (Kinetics, Something-Something, HowTo100M), mascherando blocchi spazio-temporali e chiedendo di predirne gli embedding. V-JEPA ottiene risultati state-of-the-art sul benchmark Something-Something v2 (action recognition) con linear probing, e mostra che la rappresentazione appresa cattura concetti come oggetti, azioni, relazioni — non solo texture o movimenti a basso livello. Il messaggio strategico è chiaro: questa è la via verso quello che LeCun chiama "world models", sistemi che capiscono come funziona il mondo fisico.

Critiche, V-JEPA 2 e la frattura nella comunità

La proposta JEPA ha attirato critiche su due fronti. Il primo è empirico: nonostante i risultati incoraggianti sui benchmark, V-JEPA non ha prodotto applicazioni paragonabili a Sora, Veo o Gen-3 in termini di generazione visiva. Critici come Pedro Domingos hanno notato che JEPA è "molto più vecchio di quanto suggerisce il branding" — l'idea di predire rappresentazioni latenti era già in word2vec (2013) e in tutti i metodi contrastivi successivi. Il secondo fronte è più politico: la posizione di LeCun anti-LLM è vista da alcuni come motivata dalla necessità di Meta di differenziarsi rispetto a OpenAI e Anthropic, dove Meta è in ritardo strutturale.

Nel 2024 esce V-JEPA 2 con miglioramenti architetturali, e a fine 2024-2025 Meta annuncia di voler portare l'approccio su robotica e action planning — il caso d'uso dove LeCun sostiene che i LLM hanno il massimo svantaggio strutturale. La frattura nella community AI è ormai esplicita: da un lato chi crede che lo scaling dei LLM (più dati, più parametri, più compute) sia sufficiente; dall'altro chi, come LeCun e il team JEPA, sostiene che servono architetture diverse per capacità diverse. Il giudizio storico su chi ha ragione richiederà ancora anni, ma JEPA è il principale tentativo concreto e finanziato di esplorare la via non-generativa.

Link alla fonte originale

Meta AI — "V-JEPA: The next step toward advanced machine intelligence" →

Annuncio Meta AI di V-JEPA, 15 febbraio 2024. Il position paper teorico di Yann LeCun "A Path Towards Autonomous Machine Intelligence" (OpenReview, giugno 2022) è il riferimento concettuale. Codice e checkpoint pubblicati su github.com/facebookresearch/jepa. Paper I-JEPA: arXiv:2301.08243.