MuZero su Nature: padroneggiare giochi senza conoscerne le regole
In una frase DeepMind pubblica MuZero su Nature: l'agente RL impara da solo le dinamiche del mondo e raggiunge prestazioni superumane su Go, scacchi, shogi e 57 giochi Atari senza che gli vengano date le regole.
AlphaGo e AlphaZero erano già diventati famosi per battere i campioni di Go e di scacchi. Avevano però un vantaggio: conoscevano in anticipo le regole del gioco, sapevano in ogni momento quali mosse erano possibili e cosa succedeva dopo ogni mossa.
MuZero parte senza queste informazioni. Non sa cosa significa "mangiare un pezzo" o "fare un fuoco a Go": deve dedurre tutto giocando, costruendosi da solo un modello mentale del gioco. Eppure raggiunge gli stessi livelli sovrumani — e funziona anche su giochi visivi come Atari, dove "regole esplicite" non esistono.
È un passo importante perché si avvicina al tipo di intelligenza utile nel mondo reale, dove nessuno ti fornisce un manuale prima di iniziare.
Aziende
DeepMind
Tool
MuZero
Tag
Fonti