SambaNova — RDU vs GPU e l'Inference 5x Più Veloce di NVIDIA

Cos'è: SambaNova Systems è una società di Palo Alto fondata nel 2017 come spinout di Stanford da Kunle Olukotun, Rodrigo Liang e Christopher Ré. Costruisce chip e sistemi di calcolo AI alternativi alle GPU, basati su un'architettura proprietaria chiamata Reconfigurable Dataflow Unit. L'obiettivo dichiarato è offrire inference di modelli linguistici di frontiera a velocità e costo che la pipeline NVIDIA standard non riesce a raggiungere. Serie F nel 2021 con valutazione superiore ai cinque miliardi di dollari.

Perché esiste un'alternativa alla GPU

La GPU è nata negli anni novanta per renderizzare grafica tridimensionale in tempo reale: migliaia di operazioni in virgola mobile parallele su pixel indipendenti. NVIDIA ha poi riutilizzato quell'architettura per il calcolo scientifico e per il deep learning, sfruttando la coincidenza che le moltiplicazioni matriciali dietro le reti neurali assomigliano nella forma alle operazioni grafiche. La piattaforma CUDA, lanciata nel 2007, ha trasformato quella coincidenza in un fossato competitivo enorme.

Ma la GPU per fare inference su un modello come Llama 3.1 405B paga un costo strutturale. Ogni token generato richiede di muovere i pesi del modello tra memoria HBM e core di calcolo, di gestire uno scheduler che decide cosa eseguire e quando, di coordinare migliaia di stream paralleli che potrebbero essere indipendenti ma sono pensati per workload eterogenei. Il chip è generale per design, e la generalità costa cicli sprecati. SambaNova sostiene che per i carichi di lavoro AI moderni, dove la struttura del calcolo è nota in anticipo, esiste un'architettura migliore.

La Reconfigurable Dataflow Unit

La RDU non ha uno scheduler centrale. Non esegue un programma sequenziale traducendo istruzioni in operazioni. Il modello viene compilato in un grafo di dataflow: nodi che rappresentano operazioni tensoriali, archi che rappresentano i dati che vi scorrono attraverso. La RDU mappa quel grafo direttamente sulla propria fabric di unità di calcolo riconfigurabili, e i dati lo attraversano in flusso continuo, senza ritornare a una memoria centrale tra uno stage e l'altro. Le moltiplicazioni matrice-matrice, le attenzioni, le funzioni di attivazione, sono tutte nodi di un grafo che gira come una pipeline hardware dedicata a quel modello.

Conseguenze pratiche di questa scelta. Latenza per token più bassa perché non c'è overhead di scheduling. Throughput aggregato più alto perché i dati non oscillano tra memorie. Efficienza energetica migliore perché ogni operazione viene fatta una sola volta nel posto giusto. Lo svantaggio teorico è la rigidità: compilare un modello sulla fabric richiede tempo e il chip è meno flessibile della GPU per workload non previsti. Ma per l'inference di un LLM specifico in produzione, è un trade-off che SambaNova sostiene vantaggioso.

Il numero che ha cambiato la conversazione

Nel 2024 SambaNova ha pubblicato benchmark di inference di Llama 3.1 405B, il modello open weights più grande di Meta. La RDU raggiunge circa 132 token al secondo per query singola. Una NVIDIA H100, sullo stesso modello, si attesta intorno ai 30 token al secondo in configurazioni comparabili. Il rapporto è di circa cinque volte. Per applicazioni come gli assistenti vocali, gli agenti che devono rispondere in tempo reale, o gli scenari ad alto volume dove ogni millisecondo si moltiplica per milioni di chiamate, una differenza così grande sposta la fattibilità economica di interi prodotti.

Va detto che la comparazione diretta è sempre contestabile: dipende da batch size, quantizzazione, configurazione di memoria, software stack. Ma anche scontando metà del vantaggio dichiarato per zelo benchmarketing, il delta resta dell'ordine di grandezza giusto per essere rilevante. È il tipo di numero che fa cambiare le slide di una presentazione board.

Il pivot strategico del 2023

SambaNova nasce orientata al training di modelli proprietari per clienti enterprise: il Dipartimento dell'Energia americano, il laboratorio nazionale di Argonne, Saudi Aramco. L'offerta originale era un sistema integrato hardware più software, in cui il cliente comprava un cluster RDU e SambaCloud forniva il piano di astrazione per addestrare modelli sui propri dati. Funzionava, ma in un mercato in cui NVIDIA aveva già divorato la fetta più grande del training.

Nel 2023 la società ha riorientato pesantemente verso l'inference. Il ragionamento è semplice e ben argomentato: il training di modelli frontier resterà concentrato in pochi laboratori, mentre l'inference si distribuirà in ogni azienda che integra AI nei propri prodotti. Il mercato dell'inference è dieci volte più grande di quello del training su orizzonte cinque anni, ed è dove la differenziazione architetturale di RDU offre il vantaggio più visibile. SambaCloud oggi vende inference-as-a-service, con clienti che pagano per token generati senza dover gestire infrastruttura. La concorrenza diretta è OpenAI, Anthropic, Together AI, e gli altri provider che girano su GPU NVIDIA — e SambaNova punta a offrire velocità e prezzo migliori sui modelli open weights.

Il gruppo dei "GPU killer" e perché contano

SambaNova non è sola. Groq, fondata nel 2016 da Jonathan Ross, ha la sua Language Processing Unit, anch'essa basata su un'architettura deterministica radicalmente diversa dalla GPU. Cerebras Systems costruisce wafer interi come singolo chip, con due trilioni di transistor e mezzo milione di core. Tenstorrent, guidata da Jim Keller, punta su un approccio modulare aperto. Ognuna di queste società attacca lo stesso problema da un angolo architetturale diverso, e tutte mostrano numeri sorprendenti su benchmark inference.

Il dibattito strategico è se NVIDIA può difendere la propria posizione con CUDA e con la velocità di iterazione del suo roadmap (Blackwell ha già recuperato terreno rispetto ad H100), o se l'inference rappresenta una nicchia abbastanza differenziata da permettere a più architetture di coesistere. La risposta probabile è la seconda: il training resterà dominato dalle GPU per anni, ma l'inference si specializzerà, e SambaNova insieme a Groq e Cerebras sono i candidati più seri per intercettare quella specializzazione.

Link alla fonte originale

SambaNova Systems →

Sito ufficiale con whitepaper architetturali, benchmark e accesso a SambaCloud. Documentazione tecnica liberamente accessibile. EN.