AI Snake Oil — Arvind Narayanan and Sayash Kapoor Take Apart the Hype

Chi sono: Arvind Narayanan è professore di informatica a Princeton, direttore del Center for Information Technology Policy, ed è noto per ricerche fondamentali sull'unicità dei dati de-identificati (paper Netflix Prize del 2008) e sulla privacy online. Sayash Kapoor è PhD candidate sotto la sua supervisione, ricercatore sulla reproducibility crisis nel machine learning applicato. Insieme curano la newsletter Substack "AI Snake Oil", da cui il libro prende le mosse. "AI Snake Oil", pubblicato a settembre 2024 dalla Princeton University Press, è probabilmente il libro più rigoroso sull'attuale fase di hype dell'AI scritto da insider tecnici del campo.

La distinzione fondamentale: predictive AI vs. generative AI

Il contributo analitico centrale del libro è una distinzione che dovrebbe diventare standard nel dibattito pubblico: predictive AI e generative AI sono due cose profondamente diverse, e meritano valutazioni completamente diverse. Mescolarle in una singola categoria "AI" è il primo passo dell'inganno.

La predictive AI è il sistema di machine learning addestrato per prevedere il futuro a partire da dati passati: chi commetterà un crimine, chi sarà un buon dipendente, quale paziente diventerà costoso per il sistema sanitario, quale studente fallirà l'esame, quale richiedente di mutuo non riuscirà a pagare. Questi sistemi sono ovunque — usati da sistemi giudiziari, dipartimenti HR, assicurazioni, scuole, banche — e, secondo Narayanan e Kapoor, sono largamente snake oil. La capacità predittiva reale è bassa, le promesse di marketing sono enormemente esagerate, e il danno fatto alle persone classificate male è concreto e documentato.

La generative AI — ChatGPT, GPT-4, Claude, Gemini, Midjourney, Sora — è una categoria diversa. Funziona davvero. I LLM producono testo plausibile e spesso utile, i sistemi di generazione di immagini fanno cose che nel 2020 sembravano impossibili. Ma è "oversold": le promesse di applicazioni che gli LLM possono effettivamente svolgere autonomamente, senza supervisione umana, in dominî ad alto rischio, sono ancora largamente fantasie commerciali. La distinzione tra "tecnologia funziona" e "tecnologia funziona per fare X autonomamente" è il secondo step dell'inganno.

Il caso COMPAS e il fallimento della predictive justice

L'esempio paradigmatico del primo tipo di snake oil è COMPAS (Correctional Offender Management Profiling for Alternative Sanctions): un sistema di valutazione del rischio di recidiva usato da tribunali americani per decidere su cauzione, libertà condizionale, sentenza. Vende ai giudici un punteggio numerico — 1 a 10 — che dovrebbe predire la probabilità che l'imputato commetta un nuovo reato.

L'inchiesta di ProPublica del 2016 ha mostrato che la performance di COMPAS è poco superiore a quella di un coin flip su molti casi reali, e ha bias razziale documentato: i falsi positivi per imputati neri (etichettati ad alto rischio ma che non recidivano) erano significativamente più alti dei falsi positivi per imputati bianchi. La compagnia (Equivant, ex Northpointe) ha contestato l'analisi, ma uno studio successivo di Dartmouth ha mostrato che COMPAS è battuto in accuracy da una formula lineare a due variabili — età ed eventi criminali precedenti.

Il punto di Narayanan e Kapoor non è solo che COMPAS specifico sia un cattivo prodotto. È che la categoria stessa della "predictive AI per il rischio criminale" è epistemologicamente difettosa. Il comportamento criminale individuale futuro è un fenomeno con altissima variabilità intrinseca, scarsa base statistica utile (gli eventi sono rari per individuo), e dipendente da fattori contestuali che cambiano (situazione economica, relazioni personali, opportunità). Nessun algoritmo, comunque sofisticato, può fornire predizioni significativamente meglio del caso a livello individuale, perché il segnale predittivo nei dati semplicemente non c'è. Vendere un punteggio numerico per un fenomeno fondamentalmente non-predicibile è snake oil.

Hiring AI e healthcare risk: gli altri grandi falsi

Il libro porta esempi paralleli in altri domini di applicazione della predictive AI. Hiring AI — sistemi che predicono quale candidato sarà un buon dipendente — sono stati documentati come riproduttori sistematici di bias storici (Amazon ha dovuto smantellare il suo sistema nel 2018 quando ha scoperto che discriminava contro le candidate donne). Le promesse di "ridurre il bias umano" si sono trasformate in "amplificare il bias storico con autorità tecnocratica".

Healthcare risk scoring — sistemi che predicono quali pazienti saranno costosi per il sistema sanitario — è stato oggetto di uno studio fondamentale pubblicato su Science nel 2019 da Obermeyer et al. Lo studio ha mostrato che un sistema usato da grandi assicuratori americani sottostimava sistematicamente il rischio sanitario dei pazienti neri, perché usava la "spesa sanitaria passata" come proxy del rischio futuro, e i pazienti neri storicamente accedono meno alle cure (quindi spendono meno) a parità di malattia. Il bias non era nel modello in sé, ma nella scelta dell'outcome.

Student success prediction nelle università ha pattern simili: sistemi che predicono quali studenti falliranno tendono a sotto-segnalare studenti da background socioeconomico privilegiato (le cui difficoltà sono attribuite a fattori temporanei) e a sovra-segnalare studenti minoritari, creando profezie auto-avveranti e razionalizzando interventi che riducono l'investimento nelle popolazioni a rischio. La quantità di letteratura peer-reviewed che documenta questi pattern, citata dal libro, è schiacciante.

Il benchmark gaming e la crisi di irreproducibility

Una sezione del libro tratta del problema metodologico interno al campo del machine learning. Narayanan e Kapoor (specialmente Kapoor, per il quale è il focus del PhD) hanno documentato in modo sistematico la crisi di irreproducibility nel machine learning applicato.

Il problema principale è il benchmark gaming: i ricercatori ottimizzano i loro modelli per le specifiche metriche dei benchmark standard (ImageNet, GLUE, MMLU, etc.), spesso attraverso choices metodologiche che non sono documentate in modo trasparente nei paper. Il risultato è che i guadagni mostrati sui benchmark non si traducono in guadagni reali quando i modelli vengono applicati a dati nuovi. La famosa "performance superhuman" su molti benchmark è in larga parte un artefatto della ottimizzazione mirata.

Un esempio specifico: Kapoor ha pubblicato uno studio nel 2023 documentando che decine di paper di ML applicato in scienze sociali soffrono di data leakage — il dataset di test contiene informazione che dovrebbe essere predetta — con risultato di performance dichiarate molto superiori alla performance reale. La situazione è tale che, in molti subfield, è difficile dire se ci sia stato vero progresso o solo un'accumulazione di artefatti metodologici. È la stessa crisi di reproducibilità che ha colpito la psicologia (Open Science Collaboration, 2015) e la medicina (Ioannidis, 2005), ora applicata al ML.

L'AI doomerism come distrazione

Un capitolo controverso del libro è dedicato all'AI doomerism — il discorso pubblico sul "rischio esistenziale" dell'AI, popolarizzato da figure come Eliezer Yudkowsky, in parte adottato da Geoffrey Hinton dopo le sue dimissioni da Google nel 2023, e teorizzato in pubblicazioni come "The AI Alignment Problem" o nei documenti di organizzazioni come l'AI Safety Center.

Narayanan e Kapoor non liquidano completamente il discorso sul rischio esistenziale: riconoscono che ci sono questioni filosofiche serie sul comportamento di sistemi futuri ipotetici. Ma argomentano che la struttura del dibattito pubblico sull'AI doomerism funziona come distrazione: focalizzare l'attenzione su scenari speculativi futuri (superintelligence che decide di sterminare l'umanità) toglie attenzione ai problemi reali e documentati del presente (bias di predictive AI, danno da decisioni automatizzate, concentrazione di potere nelle Big Tech, costo ambientale del training, lavoro fantasma nei dataset di RLHF).

La critica è politicamente acuta: il discorso doomerist è stato sposato proprio dalle aziende AI leader del settore (OpenAI, Anthropic, DeepMind) perché serve i loro interessi su due fronti — costruisce mistica attorno alla potenza dei loro prodotti ("così potenti che potrebbero distruggere il mondo"), e giustifica la richiesta di regolazione restrittiva che innalzerebbe barriere all'ingresso per i concorrenti più piccoli. È un discorso che produce attenzione e legittimazione, non rischio reale evitato.

Il confronto con "Algorithms of Oppression"

Il libro è in dialogo esplicito con lavori precedenti della tradizione critica all'AI. "Algorithms of Oppression" di Safiya Umoja Noble (2018) aveva documentato il bias razziale nei sistemi di ricerca Google e la riproduzione algoritmica della discriminazione. "Weapons of Math Destruction" di Cathy O'Neil (2016) aveva fornito il vocabolario popolare per la critica ai modelli predittivi opachi.

"AI Snake Oil" si distingue per due caratteristiche. Primo, gli autori sono insider tecnici: Narayanan è un ricercatore di ML attivo, Kapoor è un PhD nel campo. Le loro critiche provengono da dentro la disciplina, non da fuori. Questo rende il libro più difficile da liquidare come "incomprensione tecnica" — accusa frequente verso critici esterni. Secondo, il libro è più rigoroso epistemologicamente: non si limita a documentare casi di bias, ma sviluppa un framework teorico per distinguere quali categorie di applicazioni AI sono in linea di principio capaci di funzionare e quali sono in linea di principio snake oil.

L'uso pratico: lettura per chi deve decidere

Il pubblico cui il libro si rivolge esplicitamente non è il ricercatore ML — che probabilmente conosce già la maggior parte degli argomenti — ma il decisore aziendale, l'amministratore pubblico, il giornalista, il consulente che si trova di fronte a un'offerta commerciale di "soluzione AI per X" e deve valutare se ha senso. Il libro fornisce un checklist mentale:

Si tratta di predictive AI o di generative AI? Se predictive: il fenomeno che si vuole predire ha una base statistica sufficiente, o è essenzialmente non-predicibile a livello individuale? Quali sono i benchmark di validazione, e sono benchmark esterni rigorosi o benchmark interni del fornitore? Cosa succede agli individui classificati male — c'è meccanismo di ricorso, c'è supervisione umana? La promessa di "ridurre il bias" è supportata da studi di confronto pre-post, o è solo narrativa di marketing?

Per la generative AI le domande sono diverse ma altrettanto specifiche: il task è ben definito o richiede giudizio contestuale? Esiste verifica umana nel flusso? Cosa succede quando l'AI allucina o sbaglia — chi è responsabile, qual è il costo? Il prezzo dichiarato include i costi nascosti (training continuo, monitoring, drift management, dipendenza da fornitore)? Il libro insegna ad essere clienti competenti dell'AI: non avversari ideologici, non entusiasti acritici, ma valutatori rigorosi.

Link alla fonte originale

Princeton University Press — AI Snake Oil →

Libro ~360 pagine, EN. Pubblicato settembre 2024 da Princeton University Press. Newsletter associata: aisnakeoil.com. Recensione positiva su Nature ottobre 2024. Lettura ~9 ore.