Google TPU v5p — L'Asso nella Manica di Google Contro il Monopolio NVIDIA

Cos'è: Il TPU v5p è la quinta generazione di Tensor Processing Unit di Google, annunciata a dicembre 2023 e progettata come acceleratore di training su larga scala per i modelli interni Google — primo fra tutti la famiglia Gemini. Rappresenta l'unico vero esempio al mondo di verticalizzazione completa nell'AI: silicio progettato in casa, framework software progettato in casa, modelli addestrati in casa, prodotto distribuito in casa.

L'annuncio dicembre 2023: 4x rispetto al TPU v4

Il TPU v5p viene annunciato il 6 dicembre 2023, contestualmente al lancio di Gemini 1.0, attraverso un comunicato congiunto di Google DeepMind e Google Cloud. Le specifiche tecniche dichiarate: 459 TFLOPS di calcolo BF16 per chip, 95 GB di memoria HBM ad alta banda, e un'interconnessione tra chip — Inter-Chip Interconnect, ICI — a 4800 Gbps bidirezionali. Una singola "TPU v5p pod" può raggrupparare fino a 8.960 chip in una topologia 3D torus, per un totale aggregato di circa 4,1 exaFLOP di compute disponibile per un singolo training job. Google dichiara performance fino a 4x superiori rispetto al TPU v4 e fino a 2,8x superiori per il training di LLM di grandi dimensioni.

La precedente generazione v5e era stata posizionata come chip di inferenza e training più piccolo, ottimizzata per il rapporto prezzo/performance. La v5p ribalta la priorità: è la TPU di fascia alta, progettata espressamente per il training di frontiera dei modelli Gemini Ultra e Pro. Il numero di transistor non viene comunicato ufficialmente da Google, ma le stime dei teardown indipendenti lo collocano nell'ordine dei 70-80 miliardi, fabbricato su processo TSMC a 5nm. Le pubblicazioni interne suggeriscono che oltre il 90% dei training run interni di Google nel 2024 girino su TPU, non su GPU.

L'integrazione con JAX, XLA e il software stack Google

Il vantaggio del TPU non è solo nel silicio: è nell'integrazione con il software stack che Google ha costruito per quindici anni intorno ai propri chip. JAX — il framework di machine learning sviluppato internamente da Google e oggi open source — compila i modelli attraverso il compiler XLA, che genera kernel ottimizzati direttamente per l'architettura TPU. Il risultato è che un modello scritto in JAX gira nativamente sul TPU senza riscrittura, con un'efficienza per chip che si avvicina al 50-60% della performance teorica nei training transformer su larga scala — un livello che le GPU NVIDIA raggiungono solo dopo intensa ottimizzazione manuale e che la maggior parte dei team non riesce a replicare in pratica.

PyTorch, il framework dominante nel resto dell'industria, è supportato sui TPU tramite il progetto PyTorch/XLA, ma con un overhead non trascurabile rispetto a JAX nativo. Questo crea una dipendenza implicita: chi vuole sfruttare appieno il TPU deve passare al modello di programmazione Google, che è funzionale, "tracing-based" e diverso dal modello "eager" che PyTorch ha reso lo standard de facto in università e startup. La conseguenza è che i TPU sono enormemente efficienti per chi è dentro l'ecosistema Google e poco attraenti per chi è fuori — una dinamica che spiega perché il loro mercato esterno resti limitato nonostante la qualità tecnica.

Perché Google training Gemini su TPU invece di H100

La scelta di Google di addestrare Gemini esclusivamente su TPU invece di acquistare H100 NVIDIA come tutti i concorrenti ha tre razionali strutturali. Il primo è economico: ogni dollaro speso in TPU resta interno al gruppo Alphabet, mentre ogni dollaro speso in H100 va a NVIDIA. Considerando che i margini lordi di NVIDIA superano il 75%, Google evita di trasferire al fornitore una porzione rilevante del valore del proprio capex AI. Il secondo razionale è di disponibilità: NVIDIA aveva nel 2023-2024 liste di attesa di sei-dodici mesi per l'H100, mentre Google poteva produrre TPU v5p in volume sulla base della propria allocazione TSMC dedicata. Il terzo è di personalizzazione: il TPU è progettato specificamente per l'architettura transformer di grandi dimensioni, mentre l'H100 è un acceleratore generalista che deve servire mille casi d'uso diversi.

Il risultato pratico è che Gemini 1.0 Ultra e successivamente Gemini 1.5 e 2.0 sono stati addestrati interamente su cluster TPU. Stessa dinamica per AlphaFold (DeepMind), per i sistemi di ranking di YouTube e di Search, e per i modelli di pubblicità che generano la maggior parte del fatturato Alphabet. Internamente Google ha dichiarato che il costo per FLOP di training è "significativamente inferiore" su TPU rispetto a GPU NVIDIA, anche se i numeri esatti non sono mai stati pubblicati. La scelta strategica si traduce in resilience economica: in uno scenario in cui i prezzi delle GPU continuassero a salire o la fornitura si bloccasse, Google sarebbe l'unico hyperscaler in grado di continuare a scalare i training run senza vincoli esterni.

ICI vs NVLink, Trillium TPU v6e e la roadmap 2024-2025

L'aspetto tecnico più sottovalutato del TPU è l'interconnect. NVIDIA usa NVLink per collegare GPU all'interno di un server e InfiniBand per collegare server tra loro — un'architettura a due livelli con prestazioni eccellenti ma costi elevati e topologia limitata. Google ha invece progettato l'Inter-Chip Interconnect ICI come unica fabric integrata che raggiunge i 4800 Gbps bidirezionali per chip e che permette di collegare migliaia di TPU in topologie 3D torus particolarmente efficienti per le comunicazioni all-reduce tipiche del training distribuito. Per molti workload, l'efficienza di un cluster TPU di pari numero di chip supera quella di un cluster GPU equivalente proprio perché perde meno tempo in comunicazione inter-chip.

A maggio 2024 Google ha annunciato Trillium, il TPU v6e, con 4,7x le performance di picco rispetto al v5e e 67% di efficienza energetica in più. Disponibilità generale prevista per fine 2024 e inizio 2025. La roadmap interna prevede una nuova generazione TPU annuale, allineata al ritmo di scaling dei modelli Gemini. La domanda strategica per il resto dell'industria è se Google deciderà mai di rendere i TPU veramente competitivi anche per clienti esterni — abbassando i prezzi, semplificando il modello di programmazione, garantendo supporto a PyTorch nativo. Finora la risposta è no: il TPU resta un'arma strategica interna, non un prodotto cloud paritetico alle istanze GPU. Per questo, paradossalmente, NVIDIA mantiene il monopolio di mercato anche se Google ha dimostrato che un'alternativa tecnicamente superiore è possibile.

Link alla fonte originale

Google Cloud — TPU v5p documentation →

Official Google Cloud documentation on TPU v5p announced December 2023. For architectural context see also the paper "TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning" (2023) and the Google blog post "Introducing Trillium, 6th generation of Google Cloud TPU" (May 2024).