Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3
In una frase Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
Cerebras costruisce un chip strano: invece di tagliare i wafer di silicio in tanti piccoli processori, ne usa uno intero come un singolo gigantesco chip. Si chiama WSE-3 ed è grande quanto un piatto.
A fine agosto 2024 lancia un servizio API per far girare modelli AI open source come Llama 3.1 a velocità incredibili: il modello 70B "parla" a 450 token al secondo, dieci volte più veloce di quanto fanno le NVIDIA H100.
Il segreto: tutta la memoria del modello sta nei circuiti del chip (SRAM, velocissima) invece di passare per la memoria esterna (HBM, più lenta). Risultato: la velocità con cui leggi questa frase è circa quella con cui Llama 70B la legge sui loro chip.
Aziende
Cerebras Systems
Tool
Cerebras Inference, WSE-3
Tag
Fonti