Mixture of Experts — Perché i Modelli MoE Cambiano l'Economia dell'Inferenza AI

Cos'è: Mixture of Experts (MoE) è un'architettura di rete neurale in cui ogni layer non viene eseguito integralmente per ogni input: invece, un componente chiamato router seleziona dinamicamente solo un sottoinsieme di "esperti" (sottoreti) da attivare per ciascun token. Il risultato è un modello con un numero totale di parametri molto grande, ma un costo computazionale per token equivalente a un modello molto più piccolo.

Le Origini: da Jacobs 1991 a Shazeer 2017

L'idea di combinare esperti specializzati non è nuova. Jacobs et al. (1991) introdussero il concetto originale di Mixture of Experts come architettura modulare dove reti specializzate si dividono lo spazio degli input. Per decenni rimase un'idea teoricamente elegante ma impraticabile su scale grandi, principalmente per difficoltà di training (il gating tendeva a collassare su pochi esperti, ignorando il resto).

La svolta moderna arriva con "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" di Noam Shazeer et al. (Google Brain, 2017). Il paper introduce il sparsely-gated MoE: invece di combinare tutti gli esperti con pesi morbidi, si selezionano solo i top-K per ogni token, azzerando il contributo degli altri. L'innovazione critica è un termine di rumore aggiunto al gating durante il training — noisy top-K gating — che forza l'utilizzo uniforme di tutti gli esperti, prevenendo il collasso su un sottoinsieme.

Il paper originale dimostra scalabilità fino a 137 miliardi di parametri totali su task di traduzione automatica, con costi computazionali equivalenti a modelli molto più piccoli. Nel 2017 era un risultato straordinario — ma l'impatto pratico fu limitato dalla complessità infrastrutturale necessaria per sfruttarlo efficacemente.

L'Architettura nel Dettaglio: Router, Esperti, Sparse Activation

In un transformer classico, ogni layer di feed-forward (FFN) è identico: ogni token passa attraverso la stessa rete, con gli stessi pesi. In un MoE transformer, ogni FFN layer è sostituito da un MoE layer composto da N reti FFN indipendenti (gli "esperti") e un router.

Il router (o gating network) è una piccola rete lineare che prende come input la rappresentazione corrente del token e produce N logit — uno per ogni esperto. Una funzione softmax su questi logit produce probabilità di routing. Solo i top-K esperti (tipicamente K=1 o K=2) vengono effettivamente eseguiti per quel token; i loro output vengono combinati con i rispettivi pesi di routing.

Il risultato critico è la sparse activation: se un modello ha 8 esperti e K=2, solo il 25% dei parametri FFN viene computato per ogni token. I parametri totali del modello sono grandi (tutti gli esperti sommati), ma il FLOP count per token è quello di un modello con un singolo FFN della stessa dimensione di un singolo esperto.

Per il training, il bilanciamento del carico tra esperti è un problema critico. Se il router impara a mandare tutto su 1-2 esperti, gli altri rimangono non addestrati e inutili. Le tecniche moderne usano auxiliary loss che penalizzano lo squilibrio di utilizzo, expert capacity (ogni esperto ha un buffer limitato per batch), e durante l'inferenza token dropping o re-routing quando un esperto è sovraccarico.

Switch Transformer: Google Scala MoE ai Language Model (2021)

Il Switch Transformer (Fedus et al., Google, 2021) è il paper che ha portato MoE nell'era dei large language model moderni. L'intuizione chiave è che K=1 (un solo esperto per token) funziona sorprendentemente bene ed è molto più semplice da implementare rispetto a K=2: nessuna necessità di combinare output di esperti multipli, routing completamente deterministico.

Switch Transformer dimostra che, a parità di budget computazionale (stessa quantità di FLOP), un modello MoE supera un modello denso equivalente su quasi tutti i benchmark linguistici. La ragione intuitiva: con lo stesso compute budget, si può addestrare un modello con molti più parametri totali, aumentando la capacità di memorizzazione e specializzazione senza aumentare il costo di inferenza.

Il paper scala fino a 1.6 trilioni di parametri distribuiti su 2048 esperti — un numero impensabile per un modello denso con lo stesso budget computazionale. L'infrastruttura richiesta (TPU pod Google) è fuori portata per chiunque tranne i grandi cloud provider, ma l'architettura era chiaramente la direzione futura.

Mixtral 8x7B: il Punto di Svolta per la Community Open Source

Mixtral 8x7B, rilasciato da Mistral AI nel dicembre 2023, è il modello che ha reso MoE concretamente accessibile alla community open source. L'architettura: 8 esperti FFN per layer, K=2 (due esperti attivi per token). Il conteggio dei parametri è spesso fonte di confusione, vale la pena essere precisi.

Mixtral 8x7B ha ~46.7 miliardi di parametri totali, ma poiché solo 2 dei 8 esperti vengono attivati per ogni token, il costo computazionale effettivo per token è equivalente a un modello denso da ~12–13 miliardi di parametri. In pratica: qualità vicina a un 70B denso (grazie alla capacità totale dei parametri), velocità di inferenza vicina a un 13B denso (grazie alla sparse activation).

I benchmark confermano: Mixtral 8x7B supera LLaMA 2 70B su MMLU, HellaSwag e ARC nonostante un costo computazionale di inferenza 5× inferiore. Su coding (HumanEval) e ragionamento matematico (GSM8K) il vantaggio è particolarmente marcato. La versione instruction-tuned Mixtral 8x7B Instruct raggiunge performance comparabili a GPT-3.5 Turbo su molti task di uso comune.

GPT-4 e il "Probably MoE": la Speculazione Fondata

OpenAI non ha mai pubblicato l'architettura di GPT-4. Tuttavia, dal luglio 2023 circola in modo persistente la claim — attribuita a leak non verificati — che GPT-4 sia un MoE con 8 esperti da ~220 miliardi di parametri ciascuno, per un totale di ~1.76 trilioni. Se vero, il modello attiverebbe circa 2 esperti per token, per un costo computazionale equivalente a ~440B parametri.

Questa speculazione è coerente con diversi osservabili empirici: la velocità di inferenza di GPT-4 è inaspettatamente alta per un modello con le sue capacità, la latenza del primo token è relativamente lunga (caricamento del router), e la performance è eterogenea tra domini in modo che suggerisce specializzazione degli esperti. OpenAI non ha confermato né smentito.

Indipendentemente da GPT-4 specificamente, l'industria ha largamente adottato MoE per i frontier model: è l'unica architettura che permette di scalare capacità parametrica senza scalare proporzionalmente il costo di inferenza — una necessità economica per modelli serviti a centinaia di milioni di utenti.

Vantaggi, Svantaggi e Implicazioni Economiche

Il vantaggio principale di MoE è già stato descritto: qualità da modello grande, velocità da modello piccolo. Ma ci sono svantaggi strutturali importanti da considerare.

Il più critico è la memoria totale necessaria: anche se solo 2 esperti su 8 sono attivi per token, tutti gli 8 esperti devono essere caricati in memoria per poter eseguire il routing. Mixtral 8x7B richiede ~26 GB in FP16 — più di LLaMA 2 70B quantizzato a Q4. Per l'inferenza locale, questo è un limite reale: il modello è "veloce" solo se entra in VRAM; altrimenti il continuo swap tra RAM e VRAM vanifica il vantaggio computazionale.

Il secondo svantaggio è la complessità distribuzione: nei sistemi di serving su cluster, gli esperti devono essere distribuiti tra più GPU minimizzando la comunicazione inter-GPU. Expert parallelism è più complesso di tensor parallelism o pipeline parallelism, richiede infrastruttura specializzata (sistemi come Mixtral con vLLM o TensorRT-LLM dedicati).

Per le API commerciali, MoE è un vantaggio economico diretto per il provider: stesso livello qualitativo, costo computazionale per token significativamente inferiore rispetto a un modello denso equivalente. Questo si traduce in prezzi API più competitivi — Mistral AI ha posizionato Mixtral a prezzi molto inferiori rispetto a GPT-4, sfruttando esattamente questo vantaggio strutturale. È ragionevole aspettarsi che l'adozione di MoE nei prossimi frontier model acceleri la discesa dei prezzi API per modelli di alta fascia.

Link alla fonte originale

Shazeer et al. (2017) — Outrageously Large Neural Networks →

Il paper seminale su arxiv che ha introdotto lo sparsely-gated MoE moderno. Letture complementari consigliate: Switch Transformer (Fedus et al., 2021, arxiv:2101.03961) e il blog post tecnico di Mistral AI su Mixtral 8x7B.