Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno
In una frase Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.
Cerebras è un produttore di chip alternativo a Nvidia che usa un design "wafer-scale": un chip grande come un piatto, con la memoria HBM integrata. La cosa che fa per cui è famoso non è l'addestramento, ma l'inferenza ad altissima velocità.
A giugno 2025 pubblicano numeri impressionanti: su Llama 4 Maverick raggiungono oltre 2.500 token al secondo per utente — paragone: un H100 di Nvidia gira lo stesso modello a 100-200 token/sec. Significa risposta percepita "istantanea" anche per output lunghi.
Insieme a Groq (che usa LPU custom), Cerebras dimostra che sotto certe condizioni gli ASIC dedicati battono le GPU Nvidia di un ordine di grandezza per latenza/throughput su inferenza. Ricalibra le aspettative su "Nvidia monopolista".
Aziende
Cerebras Systems
Tool
Cerebras Inference, WSE-3
Tag
Fonti