Mixtral 8x7B — The Mistral That Beats GPT-3.5 with MoE Architecture

Cos'è: Mixtral 8x7B è un modello linguistico open source rilasciato da Mistral AI a dicembre 2023, basato su un'architettura Mixture of Experts (MoE). Con 46 miliardi di parametri totali ma solo 13 miliardi attivi per ogni inferenza, batte GPT-3.5 Turbo di OpenAI su benchmark di coding, matematica e ragionamento — ed è disponibile gratuitamente con licenza Apache 2.0.

Il lancio più stravagante del 2023: tweet + torrent

L'11 dicembre 2023, Mistral AI pubblica un tweet che contiene quasi esclusivamente un link magnetico (torrent). Nessun comunicato stampa, nessun blog post elaborato, nessuna conferenza stampa. Solo un simbolo di magnete e le coordinate per scaricare il modello direttamente. Questa è la stessa strategia adottata per il lancio del modello Mistral 7B a settembre 2023, che aveva già fatto scalpore per la sua combinazione di qualità e dimensioni ridotte.

La community AI ha risposto immediatamente: nel giro di ore, ricercatori e sviluppatori in tutto il mondo stavano scaricando, testando e benchmarkando Mixtral 8x7B. Entro 24 ore, i risultati sui benchmark circolavano ovunque, confermando quello che Mistral aveva promesso: un modello open source competitivo con i migliori sistemi commerciali disponibili.

La startup parigina fondata da ex-ricercatori di DeepMind e Meta stava dimostrando ancora una volta che la corsa all'AI non era esclusiva delle grandi corporation americane, e che l'open source poteva competere ad alto livello.

Architettura Mixture of Experts: come funziona MoE

L'architettura Mixture of Experts (MoE) è il cuore dell'innovazione di Mixtral 8x7B. Per capirne il valore, è utile confrontarla con un modello denso tradizionale come Llama 2 70B: in quel caso, tutti i 70 miliardi di parametri vengono attivati per elaborare ogni singolo token. Con MoE, la logica è diversa.

Mixtral 8x7B contiene 8 "expert networks", ciascuno con circa 7 miliardi di parametri. Ma per ogni token processato, un meccanismo chiamato router seleziona solo i 2 expert più rilevanti per quel token specifico e li attiva. Gli altri 6 expert rimangono inattivi per quella computazione.

Il risultato matematico è elegante:

Parametri totali: circa 46 miliardi (8 expert × ~5.7B parametri per expert + layers condivisi)
Parametri attivi per inferenza: circa 13 miliardi (solo 2 expert attivati)
Velocità di inferenza: paragonabile a un modello denso da 13B
Qualità: comparabile a un modello denso da 70B

In altre parole, si ottiene la velocità e il costo computazionale di un modello piccolo con la qualità di un modello molto più grande. Questo trade-off è particolarmente vantaggioso per il deployment: serve meno memoria GPU per l'inferenza rispetto a un modello denso equivalente per qualità.

Il meccanismo di routing: chi decide quale expert usare?

Il router è un componente aggiuntivo (relativamente piccolo) che analizza ogni token e calcola quale combinazione di 2 expert è più appropriata. Il routing è appreso durante il training: il modello impara autonomamente a specializzare gli expert in diversi tipi di task o domini linguistici.

Ricerche successive hanno mostrato pattern interessanti: in Mixtral, alcuni expert tendono a specializzarsi su linguaggi di programmazione, altri su ragionamento matematico, altri ancora su linguaggio formale o informale. Questa specializzazione emergente — non programmata esplicitamente — è una delle proprietà più affascinanti dell'architettura MoE.

Il routing non è però perfetto: ci sono casi in cui il router assegna lo stesso token a combinazioni di expert non ottimali, e la progettazione di meccanismi di routing più sofisticati è un'area attiva di ricerca nel campo dell'AI.

Benchmark: le performance che hanno sorpreso il settore

I risultati pubblicati da Mistral e verificati dalla community hanno mostrato Mixtral 8x7B in grado di:

Battere GPT-3.5 Turbo sui principali benchmark di coding (HumanEval), ragionamento matematico (GSM8K, MATH) e comprensione del linguaggio (MMLU).
Eguagliare o superare Llama 2 70B su quasi tutti i benchmark, pur essendo significativamente più veloce in inferenza.
Supportare un context window di 32.768 token — molto superiore ai modelli open source dell'epoca.
Gestire fluentemente 5 lingue europee: inglese, francese, italiano, tedesco, spagnolo.

Questi risultati hanno ridefinito le aspettative su cosa fosse possibile con modelli open source, spingendo la community a riconsiderare la narrativa secondo cui solo i modelli proprietari dei grandi lab (OpenAI, Anthropic, Google) potessero competere ai livelli più alti.

Perché MoE open source è importante

L'architettura Mixture of Experts non è stata inventata da Mistral: Google la usa internamente da anni in prodotti come Switch Transformer e nei sistemi che alimentano i propri servizi. La differenza con Mixtral è che per la prima volta una MoE competitiva viene resa open source, disponibile a chiunque per uso commerciale.

La licenza Apache 2.0 è particolarmente significativa: permette uso commerciale, modifica e redistribuzione senza restrizioni. Questo ha aperto la strada a numerose applicazioni commerciali basate su Mixtral, a fine-tuning specializzati per verticali specifici, e ha accelerato la ricerca su come ottimizzare e migliorare ulteriormente l'architettura MoE.

Il modello è disponibile su Hugging Face, direttamente scaricabile e eseguibile su hardware consumer di fascia alta (una singola GPU con 48GB di VRAM o più GPU in configurazione multi-GPU).

Mixtral 8x22B e l'evoluzione successiva

Il successo di Mixtral 8x7B ha spinto Mistral a continuare sulla stessa strada. A marzo 2024, la startup rilascia Mixtral 8x22B, un modello con 8 expert da 22 miliardi di parametri ciascuno (141B totali, ~39B attivi per inferenza). Le performance raggiungono un livello tale da competere con GPT-4 Turbo su molti benchmark, mantenendo la stessa filosofia open source.

Parallelamente, Mistral ha sviluppato anche Mistral Large, un modello denso proprietario accessibile via API, posizionando la startup su due fronti simultanei: open source per la community e API commerciale per le aziende. Questa doppia strategia — che ricorda quella adottata da Red Hat nel software open source — si è rivelata efficace sia per la visibilità tecnica che per la generazione di revenue.

Link alla fonte originale

Mistral AI — Mixtral of Experts →

Annuncio ufficiale Mistral AI con dettagli tecnici sull'architettura MoE, benchmark e istruzioni per il download. Pubblicato a dicembre 2023 con licenza Apache 2.0.