Mixtral 8x7B: Mixture of Experts open source che batte GPT-3.5

In una frase Mistral rilascia Mixtral 8x7B via magnet link senza preavviso: SMoE con 8 esperti da 7B, 13B parametri attivi su 47B totali. Performance pari/superiore a GPT-3.5. Apache 2.0.

Verificato Fonte ufficiale

CondividiLinkedIn X

Mistral fa una cosa che diventa subito leggendaria: pubblica su Twitter un magnet link torrent senza una parola di spiegazione. Dentro c'è Mixtral 8x7B, un modello che usa l'architettura Mixture of Experts (MoE): otto "esperti" da 7B parametri ciascuno, ma per ogni token ne usa solo due. Risultato: 47B parametri totali, ma il costo di inferenza è di un modello da 13B.

Tradotto: gira veloce come un modello piccolo, ma sa quanto un modello medio-grande. I benchmark mostrano Mixtral pari o sopra a GPT-3.5 e a LLaMA 2 70B su MMLU, MT-Bench, GSM8K — usando 5 volte meno calcolo all'inferenza.

Licenza Apache 2.0: commerciale gratuita, no restrizioni. Quattro giorni dopo il torrent, Hugging Face lo ospita ufficialmente, llama.cpp aggiunge supporto, e si scarica miliardi di volte. È il primo MoE open seriamente capace, e cambia la pianificazione di chi addestrava densi.