Microsoft Maia e Cobalt — Quando l'Hyperscaler più Grande Decide di Costruirsi le Proprie GPU

Cos'è: A novembre 2023 al Microsoft Ignite, Satya Nadella annuncia Maia 100 (acceleratore AI custom da 105 miliardi di transistor su TSMC 5nm) e Cobalt 100 (CPU ARM-based per data center). È la prima volta in cui Microsoft ammette pubblicamente di voler ridurre la dipendenza da NVIDIA con silicio proprio. Il team interno Athena, fondato nel 2019 e composto in gran parte da ex Google TPU, ha sviluppato i chip in cinque anni. La strategia segue il pattern AWS Trainium/Inferentia e Google TPU, ma con un timing più aggressivo legato alla domanda OpenAI.

Ignite 2023: l'annuncio formale dopo cinque anni di Project Athena

Il 15 novembre 2023 a Microsoft Ignite — la conferenza annuale per partner e clienti enterprise — Satya Nadella sale sul palco del Seattle Convention Center per annunciare ufficialmente Azure Maia 100, il primo acceleratore AI custom progettato in-house da Microsoft, e Azure Cobalt 100, la prima CPU ARM-based per data center sviluppata internamente. L'annuncio chiude un capitolo lungo cinque anni: l'esistenza del progetto interno — nome in codice Athena — era stata anticipata da The Information ad aprile 2023, ma i dettagli tecnici e la roadmap commerciale restavano riservati.

Maia 100 è un acceleratore AI specializzato per i workload di training e inference dei large language model. Le specifiche pubblicate da Microsoft: 105 miliardi di transistor su processo TSMC 5nm, packaging avanzato CoWoS-S, memoria HBM3 integrata, interconnect proprietario per cluster su larga scala. Cobalt 100 è una CPU ARM-based custom con 128 core Neoverse N2, ottimizzata per workload general purpose Azure (web hosting, database, microservizi) con efficienza energetica superiore alle controparti x86 Intel e AMD. La combinazione Maia + Cobalt definisce per Microsoft uno stack verticale completo — accelerazione AI, computing generale, networking, storage — su cui ridurre progressivamente la dipendenza da fornitori esterni.

Il team Athena: ex Google TPU e tradizione semiconduttore Microsoft

Il progetto Athena è stato avviato internamente nel 2019, in un periodo in cui Microsoft cominciava ad allocare risorse significative ad Azure AI e quando la collaborazione con OpenAI (iniziata con il primo $1B di luglio 2019) faceva intravedere una traiettoria di domanda computazionale fuori scala rispetto alla capacità di approvvigionamento GPU NVIDIA. Il responsabile del progetto è Rani Borkar, Corporate VP di Microsoft Azure Hardware Systems, veterana del settore con un passato in Intel. Il team include diversi ex-Googler con esperienza diretta sul TPU — l'acceleratore AI custom che Google ha sviluppato dal 2013 e che è oggi alla quinta generazione — oltre a senior engineer da AMD, Marvell e Microsoft Research.

Il razionale dell'investimento è duplice. Sul piano economico, ogni hyperscaler che sviluppa silicio proprio recupera margine: una GPU NVIDIA venduta a $30.000-40.000 ha un costo di produzione effettivo nell'ordine dei $3.000-4.000, e il delta va al fornitore. Disegnando in-house, l'hyperscaler trattiene quel delta (al netto dei costi R&D ammortizzati su volume) e migliora la struttura costi per ogni token di inference o per ogni training run. Sul piano strategico, l'avere silicio proprio significa indipendenza dalle finestre di allocation NVIDIA e capacità di ottimizzare l'architettura sui workload effettivi (LLM training, inference batch, embeddings) anziché su un design general purpose. Il pattern non è nuovo: Google ha cominciato con il TPU nel 2013, AWS con Graviton (CPU) nel 2018 e Trainium/Inferentia (AI) nel 2020. Microsoft è l'ultimo dei big three hyperscaler a entrare nel club, e proprio per questo ha potuto imparare dagli errori dei predecessori.

Specifiche Maia 100: 105B transistor TSMC 5nm

Le specifiche tecniche Maia 100 pubblicate da Microsoft e poi dettagliate alla conferenza Hot Chips 2024 (agosto 2024) permettono un confronto strutturale con i competitor. Maia 100 ha 105 miliardi di transistor — più degli 80 miliardi di un NVIDIA H100 e simile ai 153 miliardi del Blackwell B200 — su processo TSMC N5. Il design include una matrice di compute units ottimizzate per matrix multiplication a precisione mista (FP16, BF16, FP8, INT8), con throughput stimato in oltre 1.500 TFLOPS BF16 secondo le slide Hot Chips. La memoria HBM3 integrata fornisce circa 1,8 TB/s di bandwidth, inferiore agli H100 SXM5 (3,35 TB/s) ma sufficiente per i workload Microsoft più rilevanti.

L'aspetto più interessante è il sistema di raffreddamento liquido custom sviluppato da Microsoft per i cluster Maia. Ogni rack Maia integra circuiti di raffreddamento liquido a immersione parziale che permettono densità termica significativamente superiore ai data center standard, con TCO complessivo inferiore se si considera il risparmio energetico su cooling. Il primo deployment Maia 100 è andato live nei data center Microsoft di Quincy (Washington) nel primo semestre 2024, con espansione progressiva ai data center Phoenix, Dublin e Singapore. Il primo workload di scala è stato l'inference di Bing Chat (oggi Copilot), seguito a metà 2024 da una quota crescente di traffic OpenAI — anche se OpenAI continua a usare prevalentemente cluster H100/H200 NVIDIA per il training di frontier model.

Il confronto AWS Trainium e Google TPU: pattern hyperscaler

Il confronto strutturale più rilevante è con i due predecessori. Google TPU, lanciato internamente nel 2015 e disponibile per clienti esterni dal 2018 via Google Cloud, è ormai alla quinta generazione (TPU v5p, ottobre 2023, e successivi v6/Trillium del 2024). Google usa il TPU come acceleratore principale per i propri workload Gemini, Search, YouTube recommendation, e lo commercializza esternamente con prezzi competitivi rispetto alle GPU NVIDIA. AWS Trainium (training) e Inferentia (inference), lanciati rispettivamente nel 2020 e nel 2019, sono ormai alla seconda generazione (Trainium2, dicembre 2023) e rappresentano una quota crescente del compute AI venduto da AWS. Anthropic ha annunciato deal multi-miliardo con AWS che includono uso intensivo di Trainium per il training di Claude.

Il pattern comune è chiaro: ogni hyperscaler impiega cinque-sette anni per portare un chip custom da progetto interno a workload di produzione di scala, con investimenti cumulativi nell'ordine dei $5-10 miliardi tra R&D, packaging, ecosistema software, ottimizzazione framework. Le prime generazioni sono sempre deludenti rispetto a NVIDIA in termini di performance assoluta ma vincono sull'efficienza per dollaro nei workload interni dell'hyperscaler. Le generazioni successive (terza, quarta) cominciano a competere alla pari su workload selezionati. La quinta-sesta generazione raggiunge la parità o il superamento per casi d'uso specifici, mentre NVIDIA mantiene il vantaggio sul caso generale grazie a CUDA. Per Microsoft, Maia 100 è la prima generazione: la roadmap Maia 200 (annunciata a settembre 2024) è prevista per produzione 2025-2026, e Maia 300 è già in design per il 2027.

Roadmap Maia 200 e il vincolo OpenAI

La roadmap Maia 200 è stata annunciata a settembre 2024 attraverso interviste con Rani Borkar al Wall Street Journal e in keynote ridotti al GTC NVIDIA (quando Jensen Huang ha pubblicamente accolto Microsoft come "great customer and great competitor"). Maia 200 dovrebbe passare a processo TSMC N3 o N4, raddoppiare la memoria HBM e introdurre una nuova generazione di interconnect per cluster a scala. L'obiettivo dichiarato è raggiungere parità o superamento sull'H200 nei workload Microsoft più rilevanti (Copilot inference, embedding generation, retrieval) entro fine 2025.

Il vincolo strategico più importante è il rapporto con OpenAI. Microsoft è il principale investitore in OpenAI (oltre $13 miliardi cumulativi tra capitale e crediti Azure) ed è anche il provider esclusivo di infrastruttura cloud per OpenAI fino al 2030 secondo gli accordi vigenti. OpenAI training i propri frontier model (GPT-4o, GPT-4.5, GPT-5) richiede capacità GPU di frontiera assoluta, e finora ha mostrato preferenza marcata per H100 e H200 NVIDIA — anche se Microsoft preme per uno spostamento progressivo su Maia per ragioni di costo. Il bilanciamento è delicato: Microsoft non può forzare OpenAI a usare Maia se la performance non è competitiva, ma ogni dollaro speso su NVIDIA è un dollaro che esce dal perimetro Microsoft. Il prossimo capitolo (2025-2026) sarà definito dalla capacità di Maia 200 di convincere il team Mira Murati (poi ex-OpenAI) e successori a integrare il chip nei training cluster OpenAI di prossima generazione. Se Microsoft riesce, l'impatto economico sarà nell'ordine dei miliardi di margine recuperato; se fallisce, Maia resta un progetto interno di buon valore strategico ma marginale sul totale capex.

Link alla fonte originale

Microsoft Azure — Maia e Cobalt →

Official Microsoft Azure post from Ignite 2023 announcement. For Maia 100 technical details see official Hot Chips 2024 conference slides (August). For strategic context see The Information coverage (Athena project preview, April 2023), Wall Street Journal and CNBC. For TPU and Trainium comparison see Google Cloud and AWS engineering blogs.