Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno

In una frase Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Cerebras è un produttore di chip alternativo a Nvidia che usa un design "wafer-scale": un chip grande come un piatto, con la memoria HBM integrata. La cosa che fa per cui è famoso non è l'addestramento, ma l'inferenza ad altissima velocità.

A giugno 2025 pubblicano numeri impressionanti: su Llama 4 Maverick raggiungono oltre 2.500 token al secondo per utente — paragone: un H100 di Nvidia gira lo stesso modello a 100-200 token/sec. Significa risposta percepita "istantanea" anche per output lunghi.

Insieme a Groq (che usa LPU custom), Cerebras dimostra che sotto certe condizioni gli ASIC dedicati battono le GPU Nvidia di un ordine di grandezza per latenza/throughput su inferenza. Ricalibra le aspettative su "Nvidia monopolista".