Cerebras WSE-3 — Il Chip Grande Quanto un Wafer per Battere il Multi-GPU

Cos'è: Cerebras Systems è una startup di semiconduttori fondata nel 2016 a Sunnyvale che ha scelto un approccio architetturale opposto a quello di NVIDIA: invece di produrre tanti piccoli chip e connetterli, Cerebras produce un singolo chip grande quanto un intero wafer di silicio. Il WSE-3, lanciato nel marzo 2024, ha 4 trilioni di transistor — 50 volte un H100 — e elimina il bottleneck dell'interconnect tra GPU. Una scommessa radicale che ha permesso a Cerebras di pesare $720 milioni di ricavi nel 2024, ma con il 87% concentrato in un singolo cliente (G42 di Abu Dhabi) e un'IPO bloccata dal CFIUS.

Il wafer-scale engine: l'opposto della filosofia multi-GPU

La filosofia tradizionale del calcolo AI moderno è multi-GPU: si prende un workload, lo si suddivide in pezzi più piccoli, si distribuiscono i pezzi su decine o migliaia di GPU, e si fanno comunicare le GPU tra loro tramite interconnect ad alta velocità (NVLink di NVIDIA, InfiniBand di Mellanox, custom Ethernet). Il modello funziona, ma con un costo crescente: l'interconnect tra chip è ordini di grandezza più lento della comunicazione interna a un chip, e oltre il 50% del tempo di training dei foundation model più grandi è speso in comunicazione tra GPU invece che in calcolo utile.

Cerebras ha scelto la strada opposta: invece di scalare orizzontalmente, scalare verticalmente con un singolo chip enormemente grande. Il WSE-3 (Wafer-Scale Engine 3), annunciato a marzo 2024, occupa 46.225 mm² di silicio — letteralmente un intero wafer 300mm di TSMC al posto dei tradizionali 800 mm² di un'H100. Le specifiche: 4 trilioni di transistor (vs 80 miliardi dell'H100, un fattore 50x), 900.000 core di calcolo ottimizzati per operazioni tensor, 44 GB di SRAM on-chip totalmente distribuita (vs 80 GB di HBM3 esterna nell'H100), processo a 5nm di TSMC. Il chip è installato in un server rack-mounted CS-3 con consumo di 23 kW per unità.

Il vantaggio architettonico è chiaro: tutto il calcolo per un modello che entra nei 44 GB di SRAM avviene senza mai uscire dal chip, eliminando la latenza di comunicazione che affligge i sistemi multi-GPU. La memoria distribuita su 900.000 core garantisce una bandwidth aggregata di 21 PB/s contro i 3,9 TB/s di un H100 — un fattore 5.000x. Per modelli più grandi della SRAM disponibile, Cerebras propone l'integrazione con MemoryX, un'unità di memoria esterna che permette di mantenere fino a 24 trilioni di parametri in modelli sparse senza riconfigurare l'architettura. La risposta tecnica funziona: il training di Llama 3 70B su un singolo CS-3 richiede 1 giorno contro le settimane di un cluster H100 equivalente in costo.

Llama 3 in 1 giorno e il pivot verso l'inference

I benchmark pubblicati da Cerebras nel corso del 2024 mostrano performance impressionanti su workload selezionati. Training di Llama 3 70B in 1 giorno su un singolo sistema CS-3 (con MemoryX). Training di GPT-3 175B in pochi giorni. Performance su scientific computing (simulazioni climatiche, fluid dynamics, drug discovery) competitive o superiori ai cluster GPU equivalent-priced. Il sistema è stato usato dal National Energy Technology Laboratory, dall'Argonne National Laboratory, da Glaxo SmithKline e dalla Mayo Clinic per workload research-grade dove la deterministica e l'esecuzione end-to-end senza ottimizzazioni complesse sono un vantaggio rispetto ai cluster GPU.

Nel corso del 2024, Cerebras ha però realizzato che il mercato principale per cui aveva progettato il chip — il training di foundation model di frontiera — era saturo. OpenAI, Anthropic e gli altri lab hanno commitment esclusivi con NVIDIA e non sono disposti a riprogettare i propri ML stack per Cerebras. Il pivot strategico è stato l'inference: l'azienda ha lanciato a fine 2024 Cerebras Inference, un servizio API simile a GroqCloud che offre modelli open-source a velocità impressionanti — 1.800 token al secondo su Llama 70B, oltre 3x rispetto a Groq e 30x rispetto all'H100. La velocità è possibile perché tutto il modello sta in SRAM on-wafer, eliminando ogni cache miss di memoria.

Cerebras Inference si posiziona come l'API di inference più veloce al mondo per modelli LLM open-source, con un pricing competitivo ($0,60-$2 per milione di token a seconda del modello). Il target di adoption è simile a quello di Groq: developer e startup che costruiscono applicazioni agentic, voice AI o coding tool dove la velocità è il fattore critico. I primi 6 mesi del 2025 saranno decisivi per capire se Cerebras Inference cattura una quota significativa del mercato emergente dell'inference high-throughput, dove la competizione include Groq, SambaNova, e gli stessi NVIDIA con i nuovi GB200 ottimizzati per inference.

L'S-1 ritirato e l'87% di revenue da G42

Il settembre 2024 Cerebras ha depositato presso la SEC il documento S-1 per un'IPO da $750-1.000 milioni a valutazione obiettivo $7-8 miliardi sul NASDAQ. L'S-1 è stato uno degli IPO filing più attesi del 2024 nell'ecosistema AI: il primo player puro-hardware AI a tentare il mercato pubblico dopo il successo IPO di SoundHound e Astera Labs nel 2023. La lettura dei documenti S-1 ha però rivelato una struttura di ricavi estremamente concentrata e rischiosa che ha allarmato il regulator.

Le revenue 2024 dichiarate da Cerebras sono di $720 milioni (vs $79 milioni del 2023, una crescita 9x), ma con una composizione anomala: il 87% del fatturato (circa $626 milioni) proviene da un singolo cliente, G42, holding tecnologica controllata dal governo di Abu Dhabi e legata al fondo sovrano Mubadala. G42 ha firmato nel 2023 un contratto pluriennale per l'acquisto di sistemi CS-2 e CS-3 destinati a un cluster di supercomputing per la regione MENA — un deal annunciato con grande enfasi mediatica ma che concentra una quota di business proporzionalmente più alta di quanto sia normale per qualsiasi azienda quotata.

Il CFIUS (Committee on Foreign Investment in the United States) ha avviato a ottobre 2024 una review del filing per valutare i rischi di national security di un'IPO americana di un'azienda hardware AI con ricavi così concentrati su un'entità degli Emirati Arabi Uniti — paese strategicamente alleato ma con relazioni economiche significative con la Cina. La review si è concentrata su due aspetti: la possibilità che la tecnologia Cerebras venisse trasferita indirettamente a paesi sotto sanzioni, e la dipendenza strutturale dell'azienda da un singolo customer estero. Dicembre 2024 Cerebras ha ritirato il filing S-1, rinviando l'IPO al 2025 in attesa di completare la due diligence CFIUS e di diversificare la customer base.

Le prospettive 2025: tra dipendenza strategica e finestra inference

Il 2025 sarà un anno critico per Cerebras per tre ragioni concrete. Primo: deve diversificare la revenue oltre G42. L'azienda ha annunciato nuovi deal con Aleph Alpha (Germania), DataBricks (US) e diversi laboratori nazionali, ma serve almeno un 40-50% di revenue non-G42 per essere accettabile dal CFIUS e dai mercati pubblici. La traction su Cerebras Inference è la leva principale: se l'API raggiunge tassi di adoption simili a quelli osservati da Groq nel 2024 (decine di milioni di developer, deal con Fortune 500), la quota G42 si diluisce naturalmente.

Secondo: deve scalare la produzione. Produrre un wafer-scale engine è eccezionalmente complesso: ogni wafer di TSMC contiene normalmente decine di chip che possono essere testati e scartati individualmente, mentre il WSE-3 occupa tutto il wafer e qualsiasi difetto critico può richiedere lo scarto dell'intera unità. Cerebras ha sviluppato tecniche di redundancy e fault tolerance per recuperare wafer con difetti minori, ma il yield rimane strutturalmente più basso di quello di chip tradizionali. La capacità produttiva attuale è stimata in poche centinaia di sistemi CS-3 all'anno — un volume che non basta a competere con NVIDIA su scala se la domanda di inference esplode.

Terzo: deve difendere il vantaggio architettonico. NVIDIA non sta ferma: il Blackwell B200 ha già migliorato significativamente l'efficienza inference per watt rispetto all'H100, e il GB200 NVL72 (un rack che integra 36 superchip Blackwell con interconnect proprietario) è stato progettato esplicitamente per ridurre il bottleneck multi-GPU che è la principale debolezza di NVIDIA su cui Cerebras ha costruito il proprio posizionamento. Se NVIDIA riesce a chiudere il gap di latency su inference high-throughput entro il 2025-2026, il vantaggio Cerebras si restringe ai workload molto specifici di scientific computing — un mercato di nicchia rispetto al mass-market dell'AI inference. L'IPO 2025, se arriverà, dipenderà dalla capacità di Cerebras di dimostrare che il pivot inference è già scalato a sufficienza da giustificare una valutazione da multi-miliardi su una customer base diversificata.

Link alla fonte originale

cerebras.net →

Sito ufficiale Cerebras con white paper tecnici del WSE-3 e accesso a Cerebras Inference. Per la copertura IPO si vedano il filing S-1 originale sulla SEC EDGAR (settembre 2024) e i report di Reuters e Bloomberg sul ritiro CFIUS di dicembre 2024. Numeri di ricavi e percentuali G42 dal prospectus S-1 originale.