Why Machines Learn — Anil Ananthaswamy e la Matematica Dietro l'AI Moderna

Cos'è: Why Machines Learn: The Elegant Math Behind Modern AI (Dutton, luglio 2024) è il libro in cui Anil Ananthaswamy — giornalista scientifico già autore di The Edge of Physics — spiega con rigore ma accessibilità la matematica che fa funzionare il machine learning moderno. Da gradient descent a backpropagation, dai kernel methods alle reti neurali profonde, è il libro che colma il vuoto tra divulgazione narrativa e manuale universitario.

Il vuoto che il libro riempie: tra "Genius Makers" e Bishop

Chi vuole imparare il machine learning ha storicamente avuto due opzioni. Da un lato libri narrativi e divulgativi — come Genius Makers di Cade Metz o Life 3.0 di Max Tegmark — che raccontano storie e implicazioni ma non spiegano come funzionano gli algoritmi. Dall'altro manuali universitari rigorosi — il Bishop Pattern Recognition and Machine Learning, il Goodfellow-Bengio-Courville Deep Learning, il Murphy Probabilistic Machine Learning — che presuppongono solida algebra lineare, calcolo multivariato e probabilità di livello quasi-graduate.

Ananthaswamy occupa la fascia intermedia che mancava: un libro che richiede una base STEM — calculus di primo anno, algebra lineare di base, qualche nozione di statistica — ma non altro. Il lettore ideale è l'ingegnere che lavora in un settore diverso, lo scienziato di un altro dominio (fisica, biologia, chimica), lo studente universitario di matematica o informatica curioso di entrare nell'ML senza affrontare subito un manuale da 1000 pagine. Per chi vuole davvero capire e non solo sapere, è il punto di ingresso giusto nel 2024-2025.

Gradient descent come metafora geometrica

Il cuore del libro è la spiegazione di gradient descent — l'algoritmo di ottimizzazione che fa funzionare praticamente ogni rete neurale moderna. Ananthaswamy lo presenta partendo da una metafora geometrica intuitiva: un escursionista in montagna che vuole raggiungere il punto più basso della valle, in mezzo alla nebbia, può solo sentire la pendenza sotto i piedi e fare un passo verso il basso. Questa è esattamente la logica del gradient descent applicato a una funzione di costo: il gradiente è la direzione di massima crescita, lo si nega per scendere, si compie un passo, si ricalcola.

Da questa intuizione l'autore costruisce sistematicamente le varianti tecniche — stochastic gradient descent (passi calcolati su mini-batch invece che sull'intero dataset), momentum (memoria della direzione precedente per evitare oscillazioni), Adam (combinazione di momentum e learning rate adattivo). Ogni passaggio è motivato dal problema concreto che risolve, non presentato come definizione da imparare. Il risultato è che alla fine del capitolo il lettore capisce perché Adam è diventato l'ottimizzatore di default, non solo che lo è.

Backpropagation: la regola della catena vestita da algoritmo

Il capitolo su backpropagation è probabilmente il più importante del libro. Backpropagation è l'algoritmo che permette di calcolare in modo efficiente il gradiente di una rete neurale rispetto a tutti i suoi miliardi di parametri, ed è ciò che ha reso pratico il training delle reti profonde. Senza backpropagation, l'AI moderna non esisterebbe.

Ananthaswamy spiega che, dietro la complicazione apparente, backpropagation è semplicemente l'applicazione sistematica della regola della catena del calcolo differenziale. Una rete neurale è una composizione di funzioni: l'output dello strato 1 è input dello strato 2, e così via. La derivata della funzione composta è il prodotto delle derivate parziali. Backpropagation organizza questo calcolo dall'output verso l'input in modo da riutilizzare le derivate intermedie già calcolate, riducendo la complessità computazionale di ordini di grandezza rispetto al calcolo naïve. È matematica elegante e ingegneristicamente brillante, ed Ananthaswamy la presenta in modo tale che dopo la lettura il lettore può scrivere lui stesso un'implementazione semplice.

Kernel methods, SVM e il "perché abbiamo abbandonato un buon strumento"

Un capitolo particolarmente illuminante è quello dedicato ai kernel methods e alle Support Vector Machines. Negli anni '90 e 2000, prima della rinascita delle reti neurali, gli SVM erano lo strumento dominante del machine learning: matematicamente eleganti, teoricamente ben fondati, con garanzie di convergenza dimostrabili. Vladimir Vapnik e i suoi co-autori avevano costruito un'intera teoria statistica dell'apprendimento attorno a loro.

Ananthaswamy spiega il kernel trick — l'idea che un problema non lineare nello spazio originale possa diventare lineare in uno spazio di dimensione superiore, senza dover calcolare esplicitamente la mappatura — con una pulizia che pochi testi raggiungono. E spiega anche perché gli SVM sono stati superati dalle reti neurali profonde: gli SVM scalano male con la dimensione dei dataset (il calcolo del kernel su milioni di esempi diventa proibitivo) e non sfruttano la struttura gerarchica dei dati come fanno le reti convoluzionali sulle immagini. La storia degli SVM è anche una lezione sull'ML: non c'è un algoritmo "migliore" in senso assoluto, c'è una corrispondenza tra strumento, problema e quantità di dati disponibili.

Recezione critica e collocazione nella letteratura AI 2024

Il libro è stato accolto molto positivamente sia dalla critica generalista che dalla comunità tecnica. Financial Times e New York Times lo hanno incluso tra i migliori libri AI tecnici del 2024. Recensioni più tecniche — su Quanta Magazine, Nature reviews, blog di ricercatori come Lex Fridman — hanno apprezzato in particolare la capacità dell'autore di non semplificare al punto di tradire la matematica reale. Il libro contiene equazioni vere, non solo metafore; ma le equazioni sono spiegate, motivate e contestualizzate.

Ananthaswamy ha credenziali precise per scrivere questo libro: laureato in ingegneria elettrica all'Indian Institute of Technology Madras, master in ingegneria all'Università di Washington a Seattle, vent'anni di giornalismo scientifico per New Scientist, Nature, Scientific American. Il suo precedente The Edge of Physics (2010) sulla fisica fondamentale era già stato apprezzato per la stessa qualità: rigore tecnico senza sacrificare la leggibilità. Why Machines Learn conferma che questa è una nicchia editoriale di alto valore: tra divulgazione e manuale, c'è un pubblico crescente di professionisti che vogliono capire davvero e non solo sapere. Per chi si occupa di AI senza avere fatto un PhD in ML, è il libro tecnico da leggere nel 2024-2025.

Link alla fonte originale

Why Machines Learn — anilananthaswamy.com →

Pubblicato il 16 luglio 2024 da Dutton (gruppo Penguin Random House). Sito ufficiale dell'autore: anilananthaswamy.com. Disponibile in cartaceo, ebook e audiolibro. Anil Ananthaswamy è giornalista scientifico premiato (premio MIT Knight Science Journalism, fellowship Templeton), autore anche di The Edge of Physics (2010) e Through Two Doors at Once (2018). Traduzione italiana non ufficialmente disponibile al momento.