The Bitter Lesson — Settant'Anni di AI Insegnano una Sola Cosa

Chi è: Richard Sutton è professore all'Università di Alberta e ricercatore a DeepMind. È il padre del reinforcement learning moderno: il suo libro "Reinforcement Learning: An Introduction" (con Andrew Barto, 1998, seconda edizione 2018) è il testo di riferimento del campo. Ha ricevuto il Premio Turing nel 2024 insieme a Barto. "The Bitter Lesson" è un post di blog di circa 1000 parole, scritto nel marzo 2019, ed è diventato uno dei testi più letti, citati e discussi nella storia dell'intelligenza artificiale moderna.

La tesi in una frase

La lezione amara della storia dell'AI è questa: i metodi che sfruttano la scala computazionale — più dati, più compute, algoritmi general-purpose scalabili — hanno invariabilmente battuto i metodi che incorporano conoscenza umana dominio-specifica, ogni volta che la computazione diventava abbondante. E la computazione diventa sempre più abbondante nel tempo. I ricercatori che incorporano conoscenza strutturata del problema fanno progressi nel breve termine, ma vengono sorpassati nel lungo termine da metodi più semplici con più compute. Questo è successo in quasi ogni sottocampo dell'AI negli ultimi settant'anni. La lezione è "amara" perché va contro l'istinto naturale del ricercatore, che vuole incorporare nel sistema la sua comprensione del problema.

Gli scacchi: DeepBlue vs TD-Gammon

Sutton apre con il contrasto tra due approcci agli scacchi. DeepBlue — il sistema IBM che sconfisse Kasparov nel 1997 — era costruito incorporando massicce quantità di conoscenza scacchistica umana: funzioni di valutazione progettate da grandi maestri, aperture codificate manualmente, euristiche elaborate sulla struttura dei pedoni e sulla sicurezza del re. Era un tour de force di ingegneria della conoscenza umana. Funzionava, ma non generalizzava — era uno strumento specialissimo per gli scacchi e solo per gli scacchi.

TD-Gammon di Gerald Tesauro (1992) era il contrario: un sistema di reinforcement learning che imparava il backgammon giocando contro se stesso, senza conoscenza dominio-specifica incorporata, solo una rete neurale addestrata con TD(λ). Raggiunse il livello di giocatore forte senza che nessuno codificasse esplicitamente la strategia del backgammon. La stessa architettura, su scala maggiore, diventa AlphaGo e AlphaZero. Sutton usa questo contrasto per illustrare la direzione della storia: l'approccio general-purpose con scala vince sull'approccio knowledge-engineering.

Go e scacchi: AlphaGo Zero come caso di studio

Prima di AlphaGo (2016), il Go era considerato il problema AI che avrebbe richiesto comprensione umana profonda del gioco per essere risolto — la complessità combinatoria era troppo alta per la ricerca brute-force, e si pensava che le euristiche di valutazione posizionale dovessero codificare intuizioni esperte difficilmente formalizzabili. I sistemi pre-deep-learning incorporavano effettivamente molta conoscenza umana del Go.

AlphaGo Zero (2017) ha eliminato quasi tutta la conoscenza umana: parte dalle sole regole del gioco, gioca contro se stesso con Monte Carlo Tree Search e apprendimento per rinforzo, e in pochi giorni supera il livello umano. Senza dati di partite umane. Senza aperture codificate. Senza pattern di valutazione posizionale progettati da maestri. Il sistema ha "scoperto" autonomamente concetti strategici — il valore del centro, la forza delle pietre connesse, le tecniche di ko — che i giocatori umani hanno sviluppato in millenni di gioco. La scala computazionale più un algoritmo general-purpose ha sostituito secoli di knowledge engineering umano.

Il linguaggio: da grammatiche a transformers

Il caso del linguaggio naturale è forse il più rilevante per il 2024. Per decenni, il campo del NLP (Natural Language Processing) ha cercato di costruire sistemi che incorporassero grammatiche formali, regole morfologiche, strutture sintattiche, ontologie semantiche. Il programma di ricerca era: se codifichiamo la struttura del linguaggio nella forma giusta, le macchine capiranno il linguaggio. Sistemi come Cyc, WordNet, i parser sintattici a regole hanno prodotto ricerca interessante ma sistemi fragili su testo reale.

La rottura è arrivata in stadi: prima i modelli statistici su n-grammi, poi word2vec (2013) con i vettori di parola appresi dai dati, poi LSTM e encoder-decoder, poi i transformer di Vaswani et al. (2017) con l'attention mechanism. Ogni tappa ha sostituito conoscenza strutturale incorporata con più dati e algoritmi più scalabili. GPT-3 (2020) con 175 miliardi di parametri e addestramento su centinaia di miliardi di token non incorpora quasi nessuna grammatica esplicita, nessuna ontologia semantica: è un predittore di sequenze scalato enormemente. E supera sistemi con grammatiche elaborate in quasi ogni benchmark linguistico. La Bitter Lesson si applica con precisione.

La visione artificiale: feature manuali vs deep learning

Prima di ImageNet (2012), la visione artificiale era dominata da feature engineering manuale: edge detector, SIFT (Scale-Invariant Feature Transform), HOG (Histogram of Oriented Gradients). I ricercatori codificavano la loro comprensione delle strutture visive in operatori progettati a mano. Questi sistemi funzionavano su dataset piccoli e controllati, ma non scalavano. Alex Krizhevsky con AlexNet (2012) — una CNN profonda addestrata su GPU — ha ridotto l'errore di classificazione su ImageNet dal 26% al 15%, un miglioramento che anni di feature engineering non avevano ottenuto. In cinque anni le CNN hanno reso obsoleto tutto il knowledge engineering di visione artificiale precedente. Ancora una volta: scala + algoritmo general-purpose.

La "lezione amara" per i ricercatori

Perché la lezione è "amara"? Perché va contro l'istinto del ricercatore. Incorporare conoscenza di dominio nel sistema è soddisfacente: senti di star usando la tua comprensione del problema, vedi risultati nel breve termine, pubblichi paper con contributi tecnici identificabili. Usare più compute con un algoritmo più semplice è meno glamour, richiede risorse che spesso solo le grandi aziende hanno, e non porta al tipo di contributo intellettuale che si valorizza accademicamente. Eppure è quello che ha vinto quasi sempre.

Sutton è esplicito: il campo AI ha ripetuto lo stesso errore decine di volte. Si sviluppa un approccio knowledge-based che funziona bene per anni. Poi arriva più compute, e un metodo general-purpose scalabile lo supera. I ricercatori che avevano investito anni nell'approccio knowledge-based si difendono, ritardano l'adozione, a volte sabotano attivamente la nuova direzione. Poi la storia si ripete nel prossimo sottocampo. Sutton vuole che i ricercatori della prossima generazione internino questa lezione prima di ripetere l'errore.

La contestazione: l'inductive bias di LeCun

Il post ha generato una risposta importante, principalmente da Yann LeCun. LeCun argomenta che l'inductive bias — la conoscenza strutturale incorporata nell'architettura — non è qualcosa che si elimina scalando, ma qualcosa che si trasforma. Le CNN non sono feature engineering manuale, ma incorporano bias strutturali potentissimi: invarianza traslazionale, locality, gerarchia delle feature. I transformer incorporano il bias dell'attention: ogni token può relazionarsi con ogni altro, che è una struttura precisa sull'elaborazione dell'informazione. Senza questi bias strutturali, la scalabilità non funzionerebbe.

La Bitter Lesson, nella lettura di LeCun, va riformulata: non "non usare conoscenza strutturale" ma "usa conoscenza strutturale generale e scalabile, non conoscenza specifica del dominio non scalabile". La distinzione è sottile ma importante per il programma di ricerca futuro. LeCun sostiene che il salto verso l'intelligenza generale richiederà ancora innovazioni architetturali che incorporano biases sul mondo fisico — causalità, persistenza degli oggetti, planning gerarchico — che non emergono automaticamente dalla scala.

La profezia verificata: GPT-4 e oltre

Il post è del marzo 2019. Nei cinque anni successivi si è verificata la profezia più precisa della storia recente dell'AI. GPT-3 (2020), GPT-4 (2023), Gemini, Claude — tutti sistemi basati su scala massiva di transformer general-purpose, senza conoscenza dominio-specifica incorporata, senza ontologie, senza grammatiche, senza physics engines. Addestramento su internet intero più fine-tuning. Il risultato: sistemi che sembrano capire linguaggio, ragionamento, codice, matematica, immagini, con un'architettura concettualmente semplice scalata enormemente. La Bitter Lesson è diventata la strategia di prodotto delle più grandi aziende tecnologiche del mondo. Chi l'ha internalizzata prima ha vinto.

Link alla fonte originale

incompleteideas.net — The Bitter Lesson →

Post ~1000 parole, EN. Pubblicato marzo 2019. Lettura 5 minuti. Uno dei testi più linkati nella storia dell'AI research.