Etched Sohu — L'ASIC che Hardware-Codifica il Transformer per 20x Speedup

Cos'è: Etched è una startup fondata nel 2022 da Gavin Uberti e Chris Zhu — entrambi drop-out di Harvard nel pieno della laurea — con una tesi tecnica radicale: anziché costruire chip generalisti che possono eseguire qualsiasi architettura di rete neurale, costruire un ASIC (Application-Specific Integrated Circuit) che incide direttamente nel silicio l'architettura transformer. Nessun supporto per CNN, RNN, MoE alternativi, modelli a spazio di stato. Solo transformer. La scommessa: se il transformer è qui per restare ancora dieci anni, un chip che lo esegue al 100% di efficienza batterà chiunque debba mantenere flessibilità per architetture diverse.

I numeri dichiarati: 20x H100, 500K token al secondo

L'annuncio del giugno 2024 ha catalizzato l'attenzione della comunità AI grazie a due numeri molto specifici. Primo: Sohu, il chip di punta di Etched, eseguirebbe l'inferenza su Llama 70B circa venti volte più velocemente di una NVIDIA H100, a parità di consumo energetico e a un costo per token significativamente inferiore. Secondo: un singolo server con otto Sohu sarebbe in grado di erogare oltre 500.000 token al secondo in produzione, una cifra che rende economicamente sostenibili use case oggi proibitivi, come agenti AI che generano e valutano migliaia di pensieri intermedi prima di rispondere.

Va sottolineato che, al momento dell'annuncio, questi numeri erano dichiarazioni dell'azienda non ancora validate da benchmark indipendenti su silicio prodotto in volume. Etched ha rilasciato simulazioni e analisi architetturali plausibili, ma il vero test arriverà con le prime spedizioni nel 2025. La storia dell'hardware AI è piena di chip annunciati con numeri spettacolari che poi, una volta integrati in workload reali, hanno dato risultati più modesti.

L'idea tecnica: cosa significa "incidere il transformer in silicio"

Una GPU come H100 è un chip generalista per il calcolo parallelo: ha migliaia di core che possono eseguire qualsiasi operazione matriciale, qualsiasi funzione di attivazione, qualsiasi schema di memoria. Questa flessibilità ha un costo: ogni operazione passa attraverso una pipeline di decodifica delle istruzioni, dispatch ai core, gestione di cache e registri general purpose. Molto silicio è speso per supportare codice che non sarà mai eseguito su un dato workload.

Sohu rovescia il compromesso. Il transformer è una sequenza ben definita di operazioni: attention (con KV cache), matrix multiplication, layer normalization, softmax, feedforward con activation. Etched ha disegnato un layout in cui ogni blocco è fisicamente realizzato in hardware dedicato, con interconnessioni ottimizzate per il flusso esatto dei dati che il transformer richiede. Non c'è decodifica di istruzioni; non c'è scheduling dinamico; non c'è supporto per architetture alternative. Il chip è il transformer.

Il rischio architetturale: Mamba, SSM, e l'incognita post-transformer

Il bet di Etched è anche il suo rischio principale. Se l'architettura dominante cambia, il chip diventa rapidamente obsoleto. Nel 2023-2024 sono emerse architetture alternative serie: Mamba e i state space model (SSM) promettono lunghezza di contesto effettivamente illimitata con costo computazionale lineare anziché quadratico; alcune varianti di Mixture of Experts ridisegnano radicalmente il pattern di accesso alla memoria; ricerche su attention lineare e architetture ibride sono attive in tutti i grandi laboratori.

Etched scommette esplicitamente che nessuna di queste alternative spodesterà il transformer nei prossimi cinque-dieci anni — abbastanza da ammortizzare l'investimento. Il ragionamento è plausibile: l'inerzia dell'ecosistema (modelli pre-addestrati, librerie ottimizzate, expertise dei team) è enorme. Il rischio è asimmetrico: se il transformer regge, Etched diventa un fornitore strategico; se cambia il paradigma, l'investimento di chi ha comprato i chip si svaluta rapidamente.

Il finanziamento e il confronto competitivo

Nel giugno 2024 Etched ha chiuso una Serie A da 120 milioni di dollari guidata da Primary Venture Partners e Positive Sum, con partecipazione di nomi pesanti: Peter Thiel, Stanley Druckenmiller (uno dei più rispettati gestori macro degli ultimi quarant'anni), e a titolo personale alcuni dei co-fondatori di Anthropic. La presenza di Druckenmiller in particolare è significativa: è un investitore che ha storicamente evitato lo spazio venture, e la sua partecipazione segnala fiducia nella tesi macroeconomica sull'inferenza AI come categoria di costo strutturale per i prossimi anni.

Etched si posiziona in uno spazio competitivo dove ciascun attore ha un compromesso diverso. NVIDIA con le GPU resta lo standard di fatto, massima flessibilità e maturità del software stack, prezzo e disponibilità sotto pressione cronica. Groq con la sua LPU (Language Processing Unit) offre un'architettura programmabile ma ottimizzata per inferenza, con latenze record ma minore flessibilità rispetto a NVIDIA. Cerebras con i suoi wafer-scale chip va in un'altra direzione ancora — chip enormi per workload specifici di training. Etched è la più radicale: zero flessibilità sull'architettura del modello, massima efficienza sul transformer specifico.

Le prime spedizioni sono attese nel 2025. L'interesse degli hyperscaler — Microsoft, Google, Meta, Amazon — non è stato confermato pubblicamente al momento dell'annuncio, ma è il vero termometro del successo a medio termine. Se uno di loro adottasse Sohu in volume per workload di produzione, l'industria intera dovrebbe riconsiderare il trade-off tra flessibilità e specializzazione hardware nell'era della GenAI.

Link alla fonte originale

Etched — Announcing Sohu →

Annuncio ufficiale dell'azienda con dettagli tecnici sull'architettura Sohu e i benchmark dichiarati. EN. Accesso libero.