AlphaGo — Come una IA ha sconfitto il Campione Mondiale di Go

Chi è / Cos'è: AlphaGo è il sistema di gioco del Go sviluppato da DeepMind (Google). Il paper su Nature di gennaio 2016 — firmato da David Silver e altri 19 co-autori — descrive la prima versione che ha sconfitto Fan Hui, campione europeo di Go in carica. Due mesi dopo, nel marzo 2016, la stessa architettura ha battuto Lee Sedol 4-1, il che ha segnato il momento in cui il tema è uscito dai laboratori di ricerca per diventare notizia internazionale.

Perché il Go era considerato irrisolvibile

Nel 1997, Deep Blue di IBM aveva battuto Garry Kasparov agli scacchi usando essenzialmente forza bruta: una ricerca esaustiva dell'albero delle mosse, potenziata da euristiche per potare i rami improduttivi. Il Go ha una complessità di un ordine di grandezza diverso.

La scacchiera è 19×19 (361 intersezioni contro le 64 caselle degli scacchi). Il numero medio di mosse legali per turno è circa 250, contro 35 degli scacchi. Il numero totale di posizioni possibili è dell'ordine di 10¹⁷⁰, un numero che supera il numero stimato di atomi nell'universo osservabile (circa 10⁸⁰). La ricerca bruta è computazionalmente fuori portata anche con hardware illimitato.

Il secondo problema è la valutazione. Negli scacchi, capire se una posizione è vantaggiosa è relativamente più semplice: si contano i pezzi rimasti e si valutano le strutture di pedoni. Nel Go, valutare una posizione intermedia richiede una comprensione intuitiva del territorio che i giocatori sviluppano dopo anni di studio. I programmatori non sapevano come codificare questa intuizione manualmente.

L'approccio di DeepMind

AlphaGo combina quattro componenti distinte in un sistema integrato.

1. Policy network supervisionata

Una rete neurale convoluzionale addestrata su 30 milioni di mosse estratte da partite di giocatori umani esperti della piattaforma KGS (livello medio: 6 dan amatoriale). La rete impara a predire la mossa giocata dall'umano. Accuracy: circa il 57%, apparentemente bassa ma sufficiente a selezionare mosse plausibili.

2. Policy network da reinforcement learning

La policy network supervisionata viene poi migliorata con reinforcement learning: AlphaGo gioca contro versioni precedenti di se stesso, riceve ricompensa +1 per vittoria e -1 per sconfitta, e aggiorna i pesi per massimizzare la probabilità di vincere. Migliaia di partite di autoplay producono un miglioramento continuo.

3. Value network

Una rete separata impara a predire il risultato della partita da una posizione data. Non predice la prossima mossa, predice chi vincerà. Questa rete è addestrata su 30 milioni di posizioni estratte dalle partite di autoplay. È la componente che sostituisce la ricerca esaustiva: invece di esplorare l'intero albero fino al finale, si stima il valore di ogni posizione con una forward pass della rete.

4. Monte Carlo Tree Search (MCTS)

Le due reti vengono integrate in una ricerca MCTS. L'albero viene espanso selezionando mosse ad alta probabilità secondo la policy network, e i nodi vengono valutati combinando la value network con rollout veloci (simulazioni rapide fino al finale usando una versione leggera della policy network). Il bilanciamento tra i due segnali è un iperparametro tunable.

Il risultato è un sistema che usa l'intuizione appresa (le reti) per guidare la ricerca, invece di cercare tutte le possibilità. Il confronto con Deep Blue è diretto: quella era forza bruta con euristiche manuali, questa è ricerca guidata da intuizione appresa automaticamente.

I risultati: Fan Hui, Lee Sedol, Ke Jie

Il paper su Nature documenta la vittoria su Fan Hui (5-0) nel ottobre 2015, prima partita registrata di un sistema AI contro un professionista di Go a livello di campione europeo.

Nel marzo 2016, la versione potenziata (più GPU, più self-play) affronta Lee Sedol, considerato il miglior giocatore del decennio con 18 titoli mondiali. AlphaGo vince 4-1. La mossa 37 della partita 2 — una mossa in un punto del tavolo che nessun umano avrebbe giocato, valutata dal pubblico come un errore, poi riconosciuta come genio — diventa il simbolo di una capacità non-umana di trovare soluzioni non ovvie.

Nel maggio 2017, AlphaGo Master (versione ulteriormente migliorata) batte Ke Jie 3-0. Ke Jie era il numero 1 mondiale al momento. Dopo la partita, DeepMind annuncia il ritiro di AlphaGo dalle competizioni.

AlphaGo Zero (2017): imparare dal nulla

Dieci mesi dopo il paper originale, DeepMind pubblica AlphaGo Zero su Nature. La differenza è radicale: nessun dato umano. Zero parte da regole del gioco e inizializzazione casuale dei pesi, gioca contro se stesso, aggiorna i pesi in base ai risultati. Nessuna policy network supervisionata, nessuna mossa umana da imitare.

Dopo tre giorni di training, AlphaGo Zero supera la versione originale che aveva battuto Fan Hui. Dopo quaranta giorni, supera tutte le versioni precedenti inclusa quella che aveva battuto Lee Sedol. La rimozione del dato umano — che sembrava indispensabile — non solo non penalizza, ma migliora il risultato. L'ipotesi è che i dati umani introducano bias di strategie subottimali sviluppate nei secoli che il sistema libero da imitazione evita.

Perché conta

AlphaGo ha dimostrato tre cose simultaneamente:

Il deep reinforcement learning scala a problemi di complessità combinatoriale estrema
Le reti neurali possono apprendere intuizione di dominio competitivo senza programmazione manuale delle euristiche
L'apprendimento da autoplay (senza dati umani) può produrre capacità sovraumane in domini ben definiti

Il terzo punto ha avuto conseguenze dirette su AlphaFold (protein folding, 2020) e sulle ricerche successive su sistemi che imparano da simulazione. Il paradigma del self-play con reinforcement learning è diventato uno strumento standard per problemi in cui i dati umani sono scarsi o di qualità limitata.

Link alla fonte originale

nature.com/articles/nature16961 →

Paper in inglese, Nature vol. 529, gennaio 2016. Accesso completo richiede abbonamento; abstract libero. Il documentario "AlphaGo" (2017, disponibile su YouTube) offre il contesto narrativo delle partite contro Lee Sedol.