Artificial Intelligence — Una Guida per Menti Pensanti

Chi è: Melanie Mitchell è professoressa di informatica alla Portland State University e ricercatrice esterna al Santa Fe Institute. Ha conseguito il dottorato con Douglas Hofstadter — autore di "Gödel, Escher, Bach" — il cui lavoro sul pensiero analogico e la coscienza è profondamente presente nel libro. Mitchell ha trascorso un anno a visitare i laboratori di punta dell'AI mondiale per raccogliere dati di prima mano sullo stato reale del campo.

Il tour nei laboratori: cosa si vede davvero

Il metodo del libro è inusuale per un saggio tecnico: Mitchell visita fisicamente DeepMind a Londra, OpenAI a San Francisco, MIT CSAIL, laboratori universitari in tutto il mondo, e parla con i ricercatori di persona. Vuole capire non solo cosa i sistemi AI fanno nei paper, ma come i loro creatori li descrivono tra loro, cosa li entusiasma, dove sentono che mancano ancora le basi fondamentali. Il risultato è un ritratto onesto e sfumato di un campo in ebollizione, dove i successi tecnici reali convivono con affermazioni pubbliche spesso esagerate e con vuoti concettuali enormi.

Mitchell porta il lettore attraverso i benchmark che il campo usa per valutare il progresso: ImageNet per la visione artificiale, GLUE per il linguaggio, Atari per il reinforcement learning. Mostra come questi benchmark siano stati violati con margini impressionanti dai sistemi moderni, e poi mostra sistematicamente come questi stessi sistemi falliscano in modi che nessun bambino di tre anni fallirebbe. La distanza tra "superare un benchmark" e "capire il dominio" è il tema centrale del libro.

Il problema della fragilità

I sistemi di deep learning sono impressionanti nella distribuzione dei dati di training, e fragili appena si esce da quella distribuzione. Mitchell documenta questo con dovizia di esempi. Un classificatore di immagini addestrato su milioni di foto identifica un panda con il 99% di confidenza; modifica tre pixel dell'immagine in modo impercettibile all'occhio umano (un adversarial example), e lo stesso classificatore dice "gibbone" con il 100% di confidenza. Il modello non ha un concetto robusto di "panda" — ha memorizzato correlazioni statistiche che si rompono appena si introduce perturbazione fuori distribuzione.

Lo stesso pattern appare nel linguaggio naturale. I modelli BERT e GPT-2, all'epoca dello stato dell'arte, superano i benchmark di comprensione del testo (SQuAD, MNLI). Ma Mitchell cita studi che mostrano come questi modelli possano essere sconfitti con variazioni linguistiche minime — cambiare l'ordine delle parole in una premessa, aggiungere una frase irrilevante — che non cambiano il significato per un lettore umano. Il modello non capisce la struttura semantica profonda: è un potente interpolatore statistico che fallisce sull'extrapolazione.

Core Knowledge: quello che i bambini sanno e le macchine no

Mitchell attinge al lavoro della psicologa dello sviluppo Elizabeth Spelke sull'"core knowledge": il sistema di conoscenze innate e rapidamente acquisite che i bambini umani (e molti animali) hanno sulla fisica degli oggetti, la numerosità, l'agency degli agenti biologici, la geometria dello spazio. Un bambino di sei mesi sa già che gli oggetti solidi non si compenetrano, che gli oggetti cadono se non sostenuti, che un agente che si muove verso un ostacolo lo aggirerà piuttosto che attraversarlo.

I sistemi AI moderni, per quanto capaci di compiti specifici, non hanno questa base. Non hanno un modello fisico del mondo. Non hanno intuizioni di senso comune sull'agency. Questo non è un problema di scala — non viene risolto addestrando su più dati. È un problema di architettura e di come la conoscenza è rappresentata. Mitchell usa questo framework per argomentare che il salto verso sistemi AI davvero flessibili e generalizzabili richiederà innovazioni architetturali fondamentali, non solo più compute e più dati.

Il problema dell'analogia profonda

Il retroterra con Hofstadter si vede qui con chiarezza. In "Gödel, Escher, Bach" e nel lavoro successivo su Fluid Concepts and Creative Analogies, Hofstadter ha argomentato che il pensiero analogico è il cuore dell'intelligenza — non un caso speciale, ma il meccanismo fondamentale del ragionamento. Fare un'analogia significa trovare una struttura relazionale astratta che si trasferisce tra domini diversi: capire che Napoleone stava all'Europa come Alessandro Magno stava all'Asia richiede una mappa di strutture relazionali complesse, non una corrispondenza letterale di superfici.

Mitchell documenta la difficoltà dei sistemi attuali con il ragionamento analogico profondo. I modelli linguistici grandi possono completare analogie superficiali di tipo "A sta a B come C sta a D" quando queste si trovano nel training set, ma falliscono con variazioni che richiedono astrazione genuina. Il benchmark ARC (Abstraction and Reasoning Corpus) di François Chollet — disegnato per testare capacità di generalizzazione out-of-distribution — era nel 2019 irrisolvibile per tutti i sistemi esistenti. Oggi (2024) i migliori modelli lo affrontano meglio, ma il gap con la performance umana media rimane significativo.

Contro il determinismo tecno-entusiastico

Il libro è scritto come controbilanciamento all'ondata di comunicati stampa che annunciano continuamente breakthrough storici. Mitchell non è anti-AI: riconosce i progressi reali del deep learning, l'utilità pratica di molti sistemi, l'interesse scientifico genuino del campo. Ma sistematicamente decostruisce le affermazioni eccessive. "L'AI supera i medici nella diagnosi del cancro della pelle" — vera con certi dataset, ma i sistemi failano su immagini acquisite con device diversi o con diversa illuminazione. "I sistemi di guida autonoma sono più sicuri degli umani" — vera in condizioni normali, ma con pattern di fallimento radicalmente diversi da quelli umani in condizioni edge.

Mitchell introduce la distinzione tra narrow AI e intelligenza generale non come divisione netta ma come spettro di generalizzabilità. I sistemi attuali sono eccellenti in domini molto stretti, e la loro eccellenza diminuisce rapidamente man mano che ci si allontana dalla distribuzione di training. Questo non li rende inutili — sono strumenti potenti per problemi definiti — ma significa che le promesse di AGI imminente si scontrano con problemi concettuali profondi che non sono stati risolti.

Lo stato del campo nel 2019 — e oltre

Il libro è del 2019, prima di GPT-3 (2020) e della rivoluzione dei large language models. Mitchell è stata onesta in interviste successive: GPT-3 e i modelli successivi l'hanno sorpresa per le capacità linguistiche, e ha aggiornato alcune sue valutazioni sulla velocità del progresso. Ma ha anche notato che molti dei problemi fondamentali che documenta nel libro — fragilità adversariale, mancanza di core knowledge, incapacità di ragionamento analogico profondo, fallimento out-of-distribution — non sono stati risolti dalla scala, solo attenuati. GPT-4 può fare molte cose che GPT-2 non poteva, ma fallisce ancora in modi caratteristici che riflettono l'assenza di un modello del mondo genuino.

Il libro rimane prezioso proprio per questa ragione: fornisce il vocabolario concettuale — core knowledge, analogia, fragilità, generalizzazione — necessario per valutare le affermazioni sui sistemi AI attuali con rigore, senza essere né un ingenuo entusiasta né un reazionario. Mitchell parla la lingua dei ricercatori di frontiera ma scrive per il lettore intelligente non specialista. È probabilmente il miglior libro per chi vuole un punto d'appoggio critico nel dibattito pubblico sull'AI.

Link alla fonte originale

melaniemitchell.me — Artificial Intelligence: A Guide for Thinking Humans →

Libro ~354 pagine, EN. Pubblicato ottobre 2019. Lettura ~8 ore. Sito dell'autrice con risorse aggiuntive.