Mixtral 8x22B: il MoE Apache 2.0 di Mistral con 39B attivi

In una frase Mistral pubblica Mixtral 8x22B sotto Apache 2.0, MoE da 141B totali (39B attivi per token) con context 64k e tokenizer ottimizzato, primo open weight a competere realmente con Llama 2 70B in produzione.

Verificato Fonte ufficiale

CondividiLinkedIn X

Mistral fa un'altra mossa a sorpresa: pubblica i pesi di un modello enorme con licenza completamente libera (Apache 2.0), una rarità a questo livello.

Si chiama Mixtral 8x22B perché ha 8 "esperti" da 22 miliardi di parametri ciascuno; per ogni token attiva i 2 più adatti, quindi calcola come un modello da 39 miliardi pur avendone 141 di totali.

In pratica chiunque può scaricarlo, modificarlo, usarlo nei propri prodotti commerciali, senza chiedere permessi né pagare nulla. Sui benchmark batte Llama 2 70B e si avvicina a GPT-3.5.