Stochastic Parrots — I Rischi Nascosti dei Grandi Modelli di Linguaggio

Chi è / Cos'è: "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" è stato scritto da Emily M. Bender (University of Washington), Timnit Gebru (ex Google, co-fondatrice di DAIR Institute), Angelina McMillan-Major (UW) e Margaret Mitchell (ex Google, ora Hugging Face). Pubblicato al convegno FAccT (Fairness, Accountability, and Transparency) nel marzo 2021. Timnit Gebru fu licenziata da Google nel dicembre 2020, mentre il paper era ancora in fase di revisione — Google aveva chiesto di ritirarlo o rimuovere i nomi delle autrici Google dal byline.

Il contesto: il caso Gebru

Per capire la ricezione del paper, occorre conoscere le circostanze della sua pubblicazione. Timnit Gebru era co-responsabile del team Ethical AI di Google. Nel novembre 2020 aveva inviato internamente una email di critica alla cultura aziendale che seguiva la richiesta di ritirare il paper. Google interpretò l'email come una lettera di dimissioni e la licenziò.

La vicenda divenne pubblica rapidamente. Centinaia di dipendenti Google firmarono una lettera di protesta. Il New York Times, la MIT Technology Review, e decine di pubblicazioni coprirono il caso. Margaret Mitchell, co-autrice del paper, fu licenziata a sua volta tre mesi dopo. Il paper, nel frattempo, fu pubblicato regolarmente a FAccT 2021 con i nomi di tutte e quattro le autrici.

Il caso ha reso il paper politicamente carico ancora prima che molti lo leggessero. È diventato il simbolo della tensione tra ricerca critica AI e interessi commerciali delle grandi tech company.

Argomento 1 — Il costo ambientale

Il paper apre con dati sul consumo energetico del training dei LLM. Addestare un singolo modello NLP di grandi dimensioni può emettere CO₂ equivalente a quanto producono cinque automobili in tutta la loro vita operativa. Il training di modelli come GPT-3 richiede settimane su cluster di centinaia di GPU o TPU, ognuna delle quali consuma kilowatt.

Le autrici evidenziano che questo costo è distribuito iniquamente: i benefici dei LLM tendono ad andare a chi può pagarli (aziende tech, paesi ricchi), mentre i costi ambientali ricadono sproporzionatamente su popolazioni vulnerabili. Il cambiamento climatico colpisce prima chi ha meno risorse.

Nota: i dati del paper si riferiscono al 2021. Dal 2021 al 2025 la scala dei modelli è aumentata di ordini di grandezza. I modelli frontier del 2024-2025 consumano ordini di grandezza in più.

Argomento 2 — I dati di training rispecchiano bias esistenti

I LLM sono addestrati su testi raccolti dal web: Common Crawl, Reddit, libri digitali. Questo corpus rispecchia chi scrive online e cosa scrive. Chi scrive online nel 2020 è in larga misura anglofono, maschile, giovane, con accesso a internet. Le prospettive sottorappresentate — lingue minoritarie, comunità a basso reddito, donne in certe culture, anziani — sono sistematicamente meno presenti.

Il problema non è solo quantitativo. Le autrici introducono il concetto di documentazione del dataset: i dataset NLP spesso non documentano adeguatamente da dove provengono i dati, chi ha prodotto il testo, in quale contesto, con quale scopo. Un modello addestrato su Reddit amplifica la visione del mondo del tipico utente Reddit. Un modello addestrato su Common Crawl amplifica i bias del web in generale, compresi odio, disinformazione, e punti di vista dominanti.

Reddit, usato estensivamente come fonte, ha una distribuzione demografica molto specifica. Il modello impara non solo la lingua, ma anche le associazioni culturali, i pregiudizi impliciti, e i frame valoriali dei testi da cui impara.

Argomento 3 — Il pappagallo stocastico

Il terzo argomento è il più tecnico-filosofico e quello che ha dato il titolo al paper. Le autrici propongono che i LLM siano essenzialmente macchine di ricombinazione statistica del testo: non comprendono, non hanno intenzioni, non hanno riferimenti al mondo reale. Prendono distribuzioni statistiche sui testi e le ricombinano in modo plausibile.

L'immagine del pappagallo stocastico è questa: un pappagallo che ha ascoltato moltissimo linguaggio umano e lo riproduce in combinazioni nuove ma plausibili, senza capire cosa dice. "Stocastico" perché c'è casualità nel processo di generazione.

Il rischio non è che il modello sia stupido — produce output impressionanti. Il rischio è che gli umani attribuiscano comprensione dove non c'è. Se un sistema produce testo coerente su un argomento, tendiamo a credere che "capisca" quell'argomento. Questa attribuzione errata porta a fidarsi del sistema in contesti in cui non dovremmo.

Il paper non dice che i LLM siano inutili. Dice che la distinzione tra "simulare comprensione" e "comprendere" ha conseguenze pratiche, e che chi costruisce questi sistemi ha la responsabilità di non oscurare questa distinzione nel marketing e nella comunicazione pubblica.

Argomento 4 — Il rischio di significato dove non c'è

Collegato al terzo: gli umani sono inclini a costruire relazioni parasociali con sistemi che producono linguaggio naturale. Se un chatbot risponde in modo empatico, l'utente tende a percepire empatia. Se un LLM produce un'analisi articolata, l'utente tende a percepire comprensione.

Le autrici citano ricerche di psicologia sociale sul fenomeno ELIZA: già negli anni '60, gli utenti di un programma di chatbot elementare sviluppavano attaccamento emotivo e credevano di ricevere comprensione genuina. I LLM del 2020 sono infinitamente più sofisticati nell'imitare il linguaggio umano. Il fenomeno è proporzionalmente più intenso.

Il rischio pratico: persone vulnerabili usano LLM come supporto emotivo e non ricevono supporto reale. Sistemi giuridici usano output LLM come base per decisioni. Giornalisti citano output LLM come fonte. In tutti questi casi, l'attribuzione di comprensione produce danno reale.

Cosa propone il paper

Il paper non propone di fermare la ricerca sui LLM. Propone:

Documentazione sistematica dei dataset (chi ha prodotto i dati, in quale contesto, con quali bias)
Valutazione dei costi ambientali prima del training di modelli molto grandi
Ricerca su architetture più efficienti invece di scaling lineare dei parametri
Comunicazione pubblica che non oscuri le limitazioni fondamentali dei LLM
Inclusione di prospettive diverse nelle decisioni su cosa costruire e come

Le critiche al paper

Il paper ha ricevuto critiche dalla comunità AI research. Le principali:

L'argomento del "pappagallo stocastico" è una posizione filosofica non falsificabile — non specifica come distinguere empiricamente comprensione vera da ricombinazione statistica
I dati sul consumo energetico sono parziali e non considerano l'efficienza per query a deployment
Il paper non propone metriche concrete per valutare il bias nei dataset
L'analogia con ELIZA sottostima la differenza qualitativa tra ELIZA e GPT-3

Le autrici, in interviste successive, hanno risposto che l'obiettivo non era produrre metriche ma sollevare domande sistematicamente ignorate nel campo. La mancanza di domande specifiche non elimina la validità delle domande generali.

Perché conta

Stochastic Parrots è il documento più citato della critica accademica ai LLM. Non perché sia il più rigoroso tecnicamente — è un position paper, non un paper sperimentale — ma perché ha messo in forma scritta e accademica argomenti che circolavano informalmente e li ha resi discutibili pubblicamente. Il licenziamento di Gebru ha amplificato il messaggio in modo involontario: ha reso visibile la tensione tra ricerca critica e interessi aziendali in modo concreto e difficile da ignorare.

Link alla fonte originale

dl.acm.org/doi/10.1145/3442188.3445922 →

Paper in inglese, 14 pagine, ACM FAccT 2021. Accesso libero tramite ACM Open Access. Una versione preprint è disponibile su dair-institute.org.