The Master Algorithm — Alla Ricerca dell'Algoritmo Universale

Chi è: Pedro Domingos è professore di informatica all'Università di Washington (Seattle), dove dirige il gruppo di ricerca sul machine learning. È uno dei ricercatori più citati nel campo, noto per il lavoro su Markov Logic Networks e per l'algoritmo Voted Perceptron. "The Master Algorithm" è il suo tentativo di spiegare il machine learning al grande pubblico e di avanzare una tesi scientifica ambiziosa: che esista un unico algoritmo universale di apprendimento.

Il campo frammentato prima del 2015

Quando Domingos scrive il libro, il machine learning è un campo profondamente diviso. Ricercatori con background diversi — logica, neuroscienze, biologia evolutiva, statistica — hanno sviluppato approcci incompatibili, con paradigmi diversi, linguaggi diversi, e spesso rivalità accademiche feroci. Non esiste un consenso su cosa significhi "imparare" per una macchina, né su quale approccio sia fondamentalmente corretto. Domingos usa la metafora delle "tribù" per rendere questo pluralismo accessibile, e la mappa che costruisce rimane la migliore introduzione alla struttura concettuale del campo.

Il libro è pre-deep-learning-dominance: scritto prima che l'attenzione (transformer) e lo scaling massivo di GPT trasformassero i connessionisti nei vincitori quasi indiscussi. Per questo motivo è ancora più prezioso come documento storico: mostra un campo in equilibrio precario tra cinque tradizioni, ciascuna con argomenti validi, prima che la rivoluzione computazionale degli anni 2016-2022 spostasse radicalmente il centro di gravità.

I simbolisti: la logica come fondamento

La prima tribù parte dalla tradizione dell'Intelligenza Artificiale classica. I simbolisti credono che l'apprendimento sia essenzialmente un processo di deduzione e induzione logica: dalle osservazioni si estraggono regole simboliche, e queste regole vengono applicate a nuovi casi. Il loro algoritmo maestro è l'inverse deduction — dato un insieme di esempi positivi e negativi, trovare la regola logica più generale che li separa.

In pratica, gli strumenti simbolisti più usati sono gli alberi decisionali e le regole if-then. Un albero decisionale costruito su dati medici potrebbe produrre regole come: "se età > 50 E fumo = sì E pressione > 140, allora rischio cardiovascolare alto". Questi sistemi sono interpretabili — si può leggere la logica delle loro decisioni — ma faticano con dati ad alta dimensionalità (immagini, audio) dove non esistono feature simboliche predefinite. La loro sfida principale: come si fa inverse deduction in modo efficiente su dataset grandi? Come si gestisce il rumore?

I connessionisti: reti neurali e backpropagation

La seconda tribù si ispira al cervello. I connessionisti modellano l'apprendimento come aggiustamento dei pesi in una rete di nodi interconnessi — un'astrazione grossolana ma potente del neurone biologico. Il loro algoritmo maestro è la backpropagation, pubblicata nella forma moderna da Rumelhart, Hinton e Williams nel 1986. Domingos spiega la backpropagation con notevole chiarezza: si passa l'input attraverso la rete (forward pass), si calcola l'errore sull'output, e si propagano indietro i gradienti dell'errore attraverso la rete per aggiustare i pesi in direzione che riduce l'errore.

Nel 2015 i connessionisti stavano già vincendo su benchmark di visione artificiale (ImageNet, 2012) e riconoscimento vocale, ma Domingos non poteva ancora vedere la portata della rivoluzione transformer del 2017. Il libro descrive reti con pochi strati nascosti; oggi i transformer hanno centinaia di strati e miliardi di parametri. La backpropagation rimane però l'algoritmo maestro di tutto questo: non è cambiata nella sostanza, è semplicemente diventata computazionalmente scalabile su hardware dedicato (GPU, TPU).

Gli evolutivi: algoritmi genetici e selezione naturale

La terza tribù si ispira alla biologia evolutiva. Se la natura ha prodotto intelligence attraverso selezione naturale su miliardi di generazioni, perché non applicare lo stesso meccanismo per evolvere algoritmi? Gli evolutivi codificano i programmi come "genomi", li fanno competere su un problema, selezionano i migliori, li "ricombinano" e "mutano", e iterano. Il loro algoritmo maestro è la genetic programming, sviluppata principalmente da John Koza negli anni '90.

Domingos è onesto sui limiti: gli algoritmi evolutivi sono computazionalmente costosi, tendono a produrre soluzioni opache ("black box" evolutive), e hanno difficoltà a scalare su spazi ad alta dimensionalità. Funzionano bene per problemi dove la funzione obiettivo è ben definita ma lo spazio delle soluzioni è vasto e non derivabile. Trovano nicchie interessanti nell'ottimizzazione di sistemi fisici (design di antenne NASA, ottimizzazione di circuiti) ma non sono diventati l'approccio dominante del ML moderno.

I bayesiani: probabilità e incertezza

La quarta tribù parte dalla statistica bayesiana. Il teorema di Bayes — P(A|B) = P(B|A) × P(A) / P(B) — permette di aggiornare le credenze alla luce di nuove evidenze in modo formalmente coerente. I bayesiani credono che l'apprendimento sia essenzialmente inferenza probabilistica: si parte da una distribuzione a priori sulle ipotesi, si aggiorna con i dati, si arriva a una distribuzione a posteriori. Il loro algoritmo maestro è la inferenza bayesiana, con il Naive Bayes come implementazione semplice e i modelli grafici probabilistici come implementazione sofisticata.

Il Naive Bayes — usato per decenni nei filtri antispam — assume che le feature siano condizionalmente indipendenti dato il classe, un'assunzione "naive" spesso falsa ma sorprendentemente robusta in pratica. I modelli grafici bayesiani rilassano questa assunzione codificando dipendenze condizionali in un grafo. I bayesiani hanno contribuito strumenti fondamentali al ML moderno: le reti bayesiane, i processi gaussiani, i modelli latenti. La loro sfida storica è stata computazionale — l'inferenza esatta è intrattabile in reti grandi, richiedendo approssimazioni (MCMC, variational inference).

Gli analogisti: similarità e ragionamento per casi

La quinta tribù parte dall'intuizione che imparare significhi ricordare esempi e ragionare per analogia. Se voglio classificare un nuovo punto dati, cerco i punti più simili nel training set e predico in base a loro. Il loro algoritmo maestro è la Support Vector Machine (SVM), sviluppata da Vapnik e Cortes negli anni '90, con k-Nearest Neighbors come versione più semplice. Le SVM trovano l'iperpiano di separazione con il massimo margine tra le classi: non basta separare, bisogna farlo con la massima distanza possibile dai punti più vicini alla frontiera (i "support vectors").

Gli SVM con kernel trick possono classificare dati non linearmente separabili mappandoli implicitamente in spazi ad alta dimensionalità. Fino all'avvento del deep learning post-2012, erano lo stato dell'arte su molti problemi di classificazione. k-NN è concettualmente semplice ma sorprendentemente potente: per un nuovo punto, prendi i k vicini più simili e vota. La sfida: con dataset grandi, calcolare similarità diventa costoso. Richiedono anche una metrica di similarità ben definita, che per dati ad alta dimensionalità (immagini crude) è non triviale.

La tesi del Master Algorithm

Dopo aver introdotto le cinque tribù, Domingos avanza la sua tesi principale: deve esistere un Master Algorithm, un unico algoritmo di apprendimento universale che incorpora i contributi essenziali di tutte e cinque le tradizioni. Questo algoritmo imparerebbe qualsiasi cosa dai dati, dalla struttura molecolare delle proteine alla grammatica del linguaggio naturale, dalle preferenze degli utenti ai pattern nei dati finanziari.

Domingos propone come candidato il suo sistema Alchemy, basato su Markov Logic Networks che combinano logica del primo ordine con probabilità. La proposta è ambiziosa e controversa: molti ricercatori ritengono che l'unificazione sia prematura o impossibile, dato che problemi diversi richiedono inductive bias diversi. Il dibattito sulla necessità dell'inductive bias — la conoscenza a priori sulla struttura del problema — è ancora aperto ed è al centro della Bitter Lesson di Sutton (2019): forse il Master Algorithm è semplicemente "scala + gradiente discendente", senza conoscenza strutturale umana.

Perché leggere il libro nel 2024

Il libro è del 2015, pre-transformer, e alcune delle previsioni di Domingos non si sono avverate nei modi attesi. Ma rimane la migliore mappa concettuale del machine learning per chi vuole capire perché il campo è strutturato come è, da dove vengono le idee, e perché i dibattiti tra approcci — symbolic vs. sub-symbolic, probabilistic vs. deterministic, model-based vs. model-free — non sono questioni puramente tecniche ma riflettono visioni diverse di cosa significhi imparare. Chiunque voglia capire il deep learning come qualcosa di più di una black box di matrix multiplications trae vantaggio dal leggere Domingos prima o dopo Goodfellow.

Link alla fonte originale

Basic Books — The Master Algorithm →

Libro ~352 pagine, EN. Pubblicato settembre 2015. Traduzione italiana disponibile. Lettura ~8 ore.