Tesla AI Day 2022 — Vision-Only FSD e il Futuro della Guida Autonoma

Chi è: Andrej Karpathy, ricercatore AI di origine slovacca-canadese. Ha completato il dottorato a Stanford con Fei-Fei Li su reti neurali ricorrenti per visione. Direttore AI di Tesla dal 2017 al 2022, ha guidato lo sviluppo di Autopilot e FSD. Dopo Tesla è tornato a OpenAI per un breve periodo, poi nel 2023 si è dedicato a divulgazione e ricerca indipendente (il canale YouTube "Andrej Karpathy" con materiali di riferimento per il campo). È considerato uno dei migliori comunicatori tecnici nell'AI.

Il contesto: AI Day come evento strategico

Tesla AI Day 2022 si tiene il 30 settembre 2022, a Palo Alto. È il secondo AI Day di Tesla — il primo era stato nel 2021. Questi eventi non sono conferenze accademiche né lanci di prodotti tradizionali: sono esposizioni tecniche dettagliate rivolte a ingegneri e ricercatori, con l'obiettivo dichiarato di attirare talenti. Musk ha sempre sostenuto che Tesla è essenzialmente un'azienda AI e di robotica che produce anche auto — AI Day è la dimostrazione pubblica di questa tesi.

Per Karpathy, AI Day 2022 è l'ultima presentazione pubblica come dipendente Tesla. Aveva annunciato le sue dimissioni a luglio 2022, ma era rimasto come consulente per garantire la continuità. La presentazione ha quindi un tono particolare: è sia una dimostrazione tecnica che, implicitamente, un bilancio del lavoro fatto.

La scelta radicale: solo telecamere

La decisione più controversa di Tesla nella guida autonoma è la più vecchia: eliminare radar e lidar, affidandosi esclusivamente a telecamere. Waymo, Cruise, Aurora e praticamente tutti gli altri attori del settore usano lidar — sensori laser che misurano la distanza in modo diretto e preciso, producendo point cloud 3D in tempo reale. Il lidar funziona al buio, non è influenzato dal sole diretto, non richiede interpretazione complessa dell'immagine per stimare la distanza.

Karpathy ha argomentato questa scelta per anni, e AI Day 2022 è la presentazione più completa e articolata di quella tesi. L'argomento fondamentale è che gli esseri umani guidano bene — meglio di qualsiasi sistema autonomo esistente nel 2022 — usando solo visione. Le strade sono progettate per esseri con occhi, non per sensori laser. I segnali stradali, le strisce pedonali, i semafori comunicano attraverso testo e colore, non attraverso la geometria 3D. Quindi un sistema che vuole fare ciò che fanno gli umani dovrebbe partire dallo stesso tipo di input che usano gli umani.

Il secondo argomento è economico: un kit lidar di qualità aggiunge migliaia di dollari al costo del veicolo, rende l'hardware obsoleto quando le mappe cambiano, e richiede infrastruttura di mappatura preventiva. Tesla vuole un sistema che funzioni su qualsiasi strada del mondo senza mappatura preventiva — un sistema universale. Il lidar favorisce sistemi locale-specifici; le telecamere favoriscono sistemi universali.

Occupancy Networks: costruire il mondo da pixel

Il pezzo tecnico più sofisticato di AI Day 2022 è la presentazione di Occupancy Networks. Il problema: come si costruisce una rappresentazione 3D dell'ambiente circostante a partire da 8 telecamere 2D, in tempo reale, su hardware automotive?

L'approccio tradizionale è stereovisione geometrica — triangolazione della posizione 3D di un punto visibile in due telecamere con posizione nota. Funziona per feature ben definite, ma è fragile su superfici prive di texture (asfalto liscio, muri bianchi), e non scala bene a rappresentazioni dense dell'ambiente.

Tesla adotta un approccio radicalmente diverso basato su transformer e apprendimento. Le immagini delle 8 telecamere vengono elaborate da una rete neurale che "impara" come mappare percezioni 2D in una rappresentazione 3D. L'Occupancy Network produce una griglia 3D dello spazio attorno al veicolo — ogni cella della griglia ha una probabilità di essere occupata, e un'etichetta semantica (veicolo, pedone, edificio, marciapiede). Questa griglia viene aggiornata in tempo reale mentre il veicolo si muove.

Il punto cruciale: la rete non usa regole geometriche esplicite per fare questa ricostruzione. La impara da milioni di esempi di guida. Ha visto così tante situazioni che sa inferire la geometria 3D del mondo da segnali visivi ambigui — esattamente come il sistema visivo umano, addestrato da anni di esperienza, inferisce la profondità da segnali monoculari come prospettiva, ombra, e occlusione.

Video prediction e la comprensione temporale

Un elemento meno discusso ma fondamentale dell'architettura Tesla è il video prediction: il modello non analizza solo il frame corrente, ma impara a prevedere l'evoluzione della scena nel tempo. Questo ha due vantaggi. Il primo è che la comprensione temporale migliora la comprensione spaziale: vedere come gli oggetti si muovono aiuta a inferire la loro geometria e le loro intenzioni. Il secondo è che la predizione temporale permette di anticipare eventi, non solo di reagire.

Questo avvicina il sistema FSD di Tesla a un modello del mondo — una rappresentazione interna che cattura non solo lo stato attuale dell'ambiente ma le sue dinamiche. È concettualmente diverso da un sistema che mappa l'input a un'azione in modo statico.

Dojo: il supercomputer per il training

Tesla gestisce una flotta di oltre un milione di veicoli che raccolgono dati di guida continuamente. Il volume di dati disponibile per training è ordini di grandezza superiore a quello disponibile per qualsiasi competitor. Ma questo volume richiede compute enorme per essere sfruttato. Dojo è il tentativo di Tesla di costruire hardware custom per questo problema specifico.

Dojo usa chip D1 custom, progettati da Tesla, ottimizzati per training di reti neurali su dati video. L'architettura elimina bottleneck di comunicazione tra chip che affliggono sistemi standard basati su GPU NVIDIA in cluster tradizionali. AI Day 2022 presenta la prima ExaPOD operativa — un cabinet Dojo con potenza di training di un exaFLOP. L'obiettivo è ridurre il costo del training abbastanza da sfruttare pienamente i dati della flotta.

Da C++ a end-to-end neural net: FSD v12

Karpathy parte da Tesla a luglio 2022. Due anni dopo, FSD v12 viene rilasciato — e rappresenta il completamento della visione che Karpathy aveva delineato. FSD v12 è un sistema end-to-end: un'unica rete neurale riceve le immagini delle telecamere come input e produce i comandi al volante e ai pedali come output. Il codice C++ che per anni aveva governato il planning e il controllo — migliaia di regole scritte manualmente da ingegneri — è stato eliminato. La rete impara l'intero processo da guida umana imitata.

Questo è il risultato finale della filosofia presentata ad AI Day 2022: non un sistema di regole che gestisce casi specifici, ma un sistema che impara da esempi come un umano impara a guidare. Karpathy aveva previsto questa direzione e costruito l'architettura che la rende possibile. La sua partenza da Tesla prima del completamento non riduce il contributo — il lavoro tecnico che ha lasciato era la fondamenta su cui FSD v12 è stato costruito.

Link alla fonte originale

YouTube — Tesla AI Day 2022 (3h 28min) →

Evento pubblico completo. La presentazione di Karpathy inizia circa a 1h 20min. EN.