Rebooting AI — Gary Marcus contro il Deep Learning

Chi è: Gary Marcus, professore emerito NYU di psicologia e neuroscienze cognitive. Ha fondato e venduto due startup AI. Autore di "Rebooting AI" (2019, con Ernest Davis) e di una serie di paper critici degli LLM. Non è un luddista o un anti-AI — è convinto che l'approccio attuale sia sbagliato e che esista un approccio migliore.

La tesi di fondo

Marcus ha una posizione chiara, coerente, e scomoda per l'establishment AI: il deep learning è uno strumento potente ma strutturalmente limitato, e il progresso degli ultimi anni — per quanto impressionante — non ci sta portando verso l'intelligenza artificiale generale ma verso una forma di intelligenza statistica sofisticata che ha un soffitto preciso.

La sua tesi è formulabile così: i modelli di deep learning, inclusi gli LLM più avanzati, funzionano eccellentemente su task di pattern matching all'interno di distribuzioni note. Falliscono strutturalmente su:

Ragionamento affidabile: non basta che il modello arrivi alla risposta giusta in media — in applicazioni critiche conta che arrivi sempre alla risposta giusta, o almeno che sappia quando non sa. Gli LLM non soddisfano questo requisito.
Generalizzazione out-of-distribution: il modello addestrato su milioni di esempi di un problema può fallire su una variante banale del problema stesso, che non era rappresentata nel corpus.
Composizionalità: la capacità di combinare concetti appresi separatamente in nuove configurazioni. Gli LLM fanno questo in modo approssimativo, non sistematico.
Causality: distinguere correlazione da causalità. Un modello addestrato su dati osservazionali non impara strutture causali — impara pattern statistici, che possono essere fuorvianti.
Common sense robusto: il buon senso di base che un bambino di cinque anni ha e che i modelli continuano a fallire su versioni non standard dei problemi.

Marcus riassume questa posizione in una formula diventata celebre nel dibattito AI: i Large Language Model sono "statisticamente impressionanti ma cognitivamente vuoti." Producono output che sembrano intelligenti senza esibire i processi che rendono l'intelligenza affidabile.

Il problema delle allucinazioni

Le allucinazioni degli LLM — la tendenza a generare affermazioni false presentate con la stessa fiducia di quelle vere — sono uno dei temi su cui Marcus insiste con più forza. La sua posizione è provocatoria rispetto al mainstream: le allucinazioni non sono un bug da correggere ma una feature strutturale dei modelli di linguaggio così come sono progettati.

Il ragionamento è il seguente: un LLM è ottimizzato per produrre testo plausibile dato un contesto. La "plausibilità" è misurata statisticamente — quanto il testo generato assomiglia ai pattern visti in training. Non esiste, nella funzione obiettivo base del modello, nessun termine che penalizzi la falsità in sé. Il modello non ha accesso alla verità — ha accesso a pattern di come gli umani scrivono di argomenti, incluso come scrivono quando non sanno qualcosa ma fingono di saperlo.

Questo significa che un modello che non conosce la risposta a una domanda non dirà "non lo so" — dirà qualcosa che suona come una risposta corretta. L'RLHF (Reinforcement Learning from Human Feedback) migliora la situazione parzialmente, insegnando al modello a essere più cauto su certi tipi di domande. Ma non risolve il problema alla radice, perché non cambia la natura dell'ottimizzazione.

Marcus cita esempi di allucinazioni in campi critici — referenze bibliografiche inventate, diagnosi mediche errate presentate con sicurezza, bug di codice introdotti silenziosamente — per argomentare che l'affidabilità, non le capability medie, è la variabile rilevante per le applicazioni mission-critical.

La critica al scaling

La tesi dominante in OpenAI, Anthropic, e Google DeepMind è che il path verso l'intelligenza artificiale generale passa attraverso il scaling: più parametri, più dati di training, più potenza di calcolo, e il modello diventa progressivamente più capace. Le "scaling laws" di Kaplan et al. (2020) hanno mostrato che le performance migliorano in modo prevedibile all'aumentare delle risorse.

Marcus contesta questa tesi con tre argomenti:

Argomento 1 — Il soffitto dei benchmark: i modelli più grandi migliorano rapidamente sui benchmark esistenti, ma questi benchmark misurano performance medie su distribuzioni note. Quando vengono testate varianti leggermente diverse degli stessi problemi, la performance crolla in modo sproporzionato. GPT-4 fa cose che GPT-3 non faceva, ma fallisce ancora su varianti banali di problemi semplici che qualsiasi umano risolverebbe.

Argomento 2 — Comprensione vs. memorizzazione raffinata: il miglioramento con il scaling potrebbe essere miglioramento del pattern matching su distribuzioni sempre più ricche, non sviluppo di comprensione genuina. La distinzione empirica è difficile ma concettualmente cruciale. Un sistema che "comprende" dovrebbe generalizzare su varianti out-of-distribution; un sistema che "memorizza raffinato" no.

Argomento 3 — I costi esplodono prima dei benefici: il costo computazionale del training scala in modo non lineare (quadratico o peggio) con le dimensioni del modello, mentre i benefici scala sub-linearmente. A un certo punto il ROI si inverte. Marcus sostiene che stiamo avvicinandoci a quel punto.

La proposta: AI neurosimbolica

Marcus non è solo un critico. Ha una proposta alternativa: un'architettura neurosimbolica ibrida, che combini i punti di forza del deep learning con quelli dei sistemi simbolici tradizionali.

Il deep learning è eccellente per:

Percezione (riconoscimento di immagini, comprensione del linguaggio naturale)
Apprendimento da grandi quantità di dati non strutturati
Rappresentazioni latenti ricche e generative

I sistemi simbolici (sistemi esperti, logica formale, programmazione logica) sono eccellenti per:

Ragionamento esplicito e tracciabile
Garantire proprietà logiche degli output
Pianificazione a lungo termine
Rappresentazioni causali

L'analogia cognitiva che Marcus usa è quella di Kahneman: il Sistema 1 (rapido, intuitivo, pattern-based) corrisponde al deep learning. Il Sistema 2 (lento, deliberativo, logico) corrisponde ai sistemi simbolici. Il cervello umano usa entrambi in modo integrato. I sistemi AI attuali usano quasi esclusivamente il Sistema 1.

Esempi concreti di integrazione: usare LLM per parsare linguaggio naturale e trasformarlo in query su knowledge graph strutturati. Usare reti neurali per la percezione e sistemi di pianificazione formale per l'azione. Usare LLM per generare candidati di soluzione e verificatori formali per validarli.

Le critiche a Marcus

Le obiezioni al punto di vista di Marcus sono numerose e alcune hanno sostanza. È importante considerarle onestamente.

"I tuoi standard sono impossibili": nessun sistema ragiona perfettamente — nemmeno gli umani. Se il requisito è un'affidabilità del 100%, nessun sistema passerà mai il test. Marcus risponde: il requisito non è la perfezione, ma l'affidabilità adeguata al contesto. Un'auto autonoma che sbaglia una manovra su mille è inaccettabile; un assistente che sbaglia una mail su mille è accettabile. I sistemi AI attualmente non distinguono tra questi due contesti.

"Il scaling sta comunque migliorando il reasoning": i modelli o3 e o1 di OpenAI hanno mostrato miglioramenti significativi nel ragionamento matematico e logico attraverso tecniche di "thinking" prolungato. Marcus riconosce il progresso ma sostiene che non risolve i problemi fondamentali di composizionalità e common sense — li spinge solo più in là.

"Critichi senza costruire alternative": questa è forse la critica più tagliente. Marcus ha fondato startup AI ma non ha mai costruito il sistema neurosimbolico che propugna a scala. La sua risposta è che la ricerca neurosimbolica esiste (DeepMind AlphaCode usa verificatori formali, systems come Wolfram Alpha integrano simbolico e generativo) ma riceve una frazione minuscola del funding rispetto al pure scaling.

"GPT-4 passa test che tu dicevi impossibili": vero. Marcus ha fatto previsioni che si sono rivelate parzialmente errate sui tempi. La sua risposta: il benchmark su cui i modelli migliorano non è lo stesso benchmark su cui io insisto. Migliorare sulle domande di esame è diverso da migliorare sull'affidabilità pratica in deployment.

Perché seguirlo

Marcus è utile non come oracolo da seguire acriticamente, ma come contrappeso sistematico all'entusiasmo dominante nel mondo AI. In un campo dove ogni settimana vengono annunciati breakthrough epocali, avere una voce che chiede "ma funziona davvero, in modo affidabile, fuori dai benchmark?" è salutare.

I suoi test di fallimento sono il contributo più pratico. Prima di affidarsi a un sistema AI in produzione, chiedere:

Come si comporta su varianti del problema che differiscono leggermente dalla distribuzione di training?
Sa dire "non lo so" quando non sa?
Il suo output è verificabile in modo indipendente, o devo fidarmi sulla parola?
Cosa succede quando viene usato in modo inaspettato dall'utente?

Queste non sono domande di ricercatori accademici — sono domande di ingegneri che mettono sistemi in produzione. Marcus ha contribuito a mettere queste domande al centro del dibattito, in un contesto in cui la pressione commerciale spingeva a ignorarle.

Il suo Substack è aggiornato settimanalmente con analisi di failure mode specifici, critiche di paper, e commenti su eventi nel settore. Non richiede background tecnico avanzato per essere letto, e fornisce un antidoto utile all'echo chamber dell'entusiasmo AI.

Link alla fonte originale

garymarcus.substack.com →

Substack gratuito, aggiornato settimanalmente. EN. Libro disponibile in libreria.