Groq LPU — L'Acceleratore Specializzato per Inference che Batte NVIDIA su Velocità

Cos'è: Groq è un'azienda di semiconduttori fondata nel 2016 da Jonathan Ross — uno dei progettisti originali del TPU di Google — che ha sviluppato la Language Processing Unit (LPU), un'architettura specializzata per l'inference dei large language model. A differenza delle GPU NVIDIA che cercano flessibilità tra training e inference, l'LPU è ottimizzata pure-play sull'inference e raggiunge velocità 10x superiori a parità di modello. Un caso esemplare di come la specializzazione hardware possa aprire spazi competitivi contro il dominio NVIDIA.

Le origini Google e l'architettura deterministica

Jonathan Ross ha co-progettato il primo TPU (Tensor Processing Unit) di Google nel 2013-2014 come parte di un team interno di pochi ingegneri. Quando Google ha deciso di mantenere il TPU come tecnologia proprietaria interna, Ross ha lasciato l'azienda nel 2016 per fondare Groq con l'obiettivo di portare un acceleratore AI specializzato sul mercato aperto. Il team co-fondatore include altri ex-Googler con esperienza nei TPU, oltre a veterani di Intel e SiByte. Sede a Mountain View, $67 milioni di Serie B nel 2021, evoluzione tecnica fino al 2023 quando l'azienda ha cominciato a pubblicare benchmark di pubblico interesse.

L'innovazione tecnica fondamentale dell'LPU è l'architettura deterministica. Le GPU NVIDIA (e tutte le GPU general-purpose) sono progettate per gestire carichi di lavoro stocastici: la scheduling dei thread, la cache hierarchy, la branch prediction sono tutti meccanismi che ottimizzano per il caso medio ma introducono varianza di esecuzione. Quando si esegue inference di un large language model — un task fondamentalmente sequenziale dove ogni token dipende dal precedente — questa varianza diventa overhead. L'LPU elimina questa varianza con un design tensor streaming processor: ogni operazione è schedulata staticamente a tempo di compilazione, il chip esegue esattamente ciò che il compiler gli dice, senza branch prediction né cache speculative.

Le specifiche del chip GroqChip 1 (prima generazione commerciale): 14nm di GlobalFoundries, 25 miliardi di transistor, 230 MB di SRAM on-chip (molto più che le GPU NVIDIA per evitare bottleneck su memoria esterna), 750 TOPS di throughput a precisione INT8, 250W di TDP. La seconda generazione (annunciata fine 2024) passa a 4nm di Samsung e raddoppia la performance per watt. L'approccio di Groq sull'on-chip SRAM è opposto a quello NVIDIA che invece privilegia HBM ad alta bandwidth: la scommessa è che per inference su modelli che entrano in SRAM distribuita su un cluster di LPU, la latenza è radicalmente più bassa.

I benchmark: 500+ token/sec su Llama 70B

I benchmark che hanno reso Groq famosa nel 2024 sono quelli pubblicati su GroqCloud, la piattaforma API che l'azienda ha lanciato a inizio 2024 con modelli open-source come Llama 2/3, Mixtral e Gemma. Per il modello Llama 70B, Groq raggiunge consistentemente oltre 500 token al secondo di output per singola sessione utente, contro i circa 50 token/sec di una GPU H100 sullo stesso modello — un fattore di 10x in velocità. Per Llama 8B i numeri salgono a oltre 1.200 token/sec. Questa velocità ha implicazioni pratiche importanti: rende possibile use case come agenti AI con tool use multi-step, voice AI in tempo reale (con latenza sub-secondo end-to-end), interfacce conversazionali che reagiscono come una chat umana invece che a velocità di lettura.

Sul piano economico, GroqCloud offre prezzi più aggressivi delle alternative GPU: Llama 70B a circa $0,59 per milione di token (input + output combinati) contro circa $1-2 delle alternative GPU-based di pari modello. Il prezzo è possibile perché l'efficienza per watt dell'LPU è significativamente migliore: anche se il throughput aggregato per chip non batte un H100, il throughput per chip per dollaro su workload di pure inference batte ampiamente la GPU. Per workload con elevato traffic (chatbot consumer, code completion in-IDE, voice assistant), Groq diventa un'alternativa economicamente sensata.

I limiti del benchmark sono altrettanto importanti. L'LPU eccelle su LLM open-source standard caricati in modo statico. Non eccelle su workload eterogenei, modelli con architetture custom (Mixture of Experts molto sparse, modelli multimodali con vision encoder), batch processing con high concurrency, e training (per cui non è progettata). Inoltre, ogni nuovo modello da supportare richiede un porting dedicato attraverso il compiler Groq — non c'è il "drop the model, it just works" che CUDA offre. Per i clienti che vogliono sperimentare con modelli proprietari o esotici, l'LPU non è una scelta praticabile.

$640M Serie D e la partnership Aramco da $1,5B

L'agosto 2024 Groq ha annunciato una Serie D da $640 milioni a valutazione $2,8 miliardi, lead investor BlackRock, con partecipazione di Cisco, KDDI, Samsung Catalyst Fund, Type One Ventures, Neuberger Berman, e di una serie di family office. Il round porta il funding totale di Groq a oltre $1 miliardo cumulativo. La narrativa attorno al round è stata la transizione dell'azienda da "interessante alternativa hardware" a "infrastruttura di inference per il mercato enterprise".

Il deal strategico più rilevante annunciato nel 2024 è la partnership con Aramco Digital per la costruzione del "più grande data center di inference del mondo" a Dammam in Arabia Saudita. Il deal vale $1,5 miliardi nominali e prevede l'installazione iniziale di 19.000 LPU entro fine 2024, con espansione a oltre 200.000 LPU entro il 2027. L'obiettivo dichiarato è offrire capacità di inference a basso costo per applicazioni AI in Medio Oriente e Africa, sfruttando l'energia a basso costo (gas naturale) e la posizione geografica strategica. Per Groq, il deal è il singolo customer commitment più grande mai annunciato pubblicamente, oltre a un'iniezione di credibilità nelle conversazioni enterprise globali.

Il modello di business si articola su due assi. Il primo è GroqCloud, l'API pubblica simile alle API di OpenAI/Anthropic ma con modelli open-source, prezzata aggressivamente per attrarre developer e applicazioni che possono accettare modelli open invece che closed-source. Il secondo è Dedicated Capacity, vendita di rack o intere installazioni LPU ai clienti enterprise che vogliono inference on-prem o ibrida (banche, ospedali, governi). Il deal Aramco è un esempio sovradimensionato del secondo asse, ma operativamente l'azienda sta firmando contratti con multiple PA, telco e service provider di paesi del Golfo, Asia e Africa.

Il problema ecosistema software: la barriera CUDA-equivalent

Il rischio strategico principale di Groq — condiviso con tutti i challenger di NVIDIA — è la mancanza di un ecosistema software equivalente a CUDA. CUDA è il risultato di vent'anni di investimento di NVIDIA in tooling, librerie, framework support, training developer, certificazioni. Ogni PhD AI conosce CUDA, ogni paper di deep learning pubblica codice CUDA, ogni framework (PyTorch, TensorFlow, JAX) ha il backend più maturo su CUDA. L'LPU di Groq usa un proprio compiler proprietario che traduce modelli PyTorch/TensorFlow nel formato eseguibile sui chip, ma con due limitazioni: solo certi tipi di operatori sono supportati, e ogni modello deve essere passato attraverso il toolchain Groq prima dell'esecuzione.

Per un cliente enterprise che vuole sperimentare con un nuovo modello (Llama 3.3 appena rilasciata, una variante MoE custom, un modello multimodale), questo significa attendere settimane o mesi che il team Groq aggiunga il supporto. Per un cliente che ha workload eterogenei, il costo di switch da CUDA a Groq è alto: bisogna riscrivere parte dell'ML ops, formare il team, e rinunciare alla compatibilità di default che CUDA garantisce. Groq sta cercando di ridurre questa frizione tramite GroqCloud (dove il toolchain è nascosto dietro un'API standard), ma per i deal di dedicated capacity il problema rimane.

La risposta strategica di Groq è specializzarsi su un sottoinsieme di workload — i top 10-20 modelli open-source che dominano oltre il 90% del traffic di inference enterprise — e ottimizzare quelli al massimo. È una scommessa ragionevole: il long tail dei modelli custom è poco rilevante per il volume aggregato. Ma rende Groq vulnerabile a uno scenario in cui NVIDIA riesce a rilanciare la propria offerta inference (i chip H200 e B100 hanno migliorato significativamente la performance per watt su inference rispetto all'H100), restringendo il vantaggio velocità di Groq a margini meno difendibili. La traiettoria 2025-2026 dipenderà da quanto velocemente Groq scala la produzione (oggi limitata a poche migliaia di chip al mese) e da quanto rapidamente NVIDIA chiude il gap di specializzazione.

Link alla fonte originale

groq.com →

Sito ufficiale di Groq con accesso a GroqCloud (free tier disponibile per developer). Per benchmark comparativi indipendenti si vedano ArtificialAnalysis.ai e i report periodici di Semianalysis. Per il deal Aramco si vedano i comunicati ufficiali Groq di settembre 2024 e Reuters.