Salta al contenuto
AImpact
IT EN
Modelli Intermedio Anche noto come: Mixture of Experts · Miscela di esperti

MoE

/em-oh-ee/

Architettura in cui il modello è diviso in molti sotto-modelli specializzati ('esperti') e per ogni token viene attivata solo una piccola parte di essi.

CondividiLinkedInX

In pratica

Permette di avere modelli da centinaia di miliardi di parametri ma con il costo di inferenza di uno molto più piccolo. Mixtral, DeepSeek e GPT-4 lo usano. In pratica per chi usa l'API non cambia nulla, ma spiega rapporti qualità/prezzo sorprendenti.

Termini collegati

Visto in azione

18 voci che lo citano
  1. DeepSeek V4 Preview: 1.6T parametri, contesto 1M e open weight in due taglie
    Pietra miliare
  2. DeepSeek R2: la cinese rilancia il modello reasoning open-weight
    Alto
  3. Llama 4 Scout: 109B MoE multimodale con 10M di context e vision SOTA
    Alto
  4. Qwen 3: Alibaba rilascia una famiglia open weight da 0.6B a 235B con thinking nativo
    Alto
  5. Llama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza
    Alto
  6. DeepSeek-V3-0324: l'update silenzioso che mette in difficoltà il vendor lock-in
    Medio
  7. DeepSeek-V3: qualità GPT-4o a $0.55/M token tramite MLA e pipeline FP8
    Alto
  8. DeepSeek-V3: la Cina rilascia un modello frontier open a costo basso scioccante
    Pietra miliare
  9. DeepSeek-Coder-V2: qualita GPT-4 Turbo su coding con pesi aperti
    Alto
  10. DeepSeek-V2: Multi-head Latent Attention e il primo MoE cinese open ad alta efficienza
    Alto
  11. Mixtral 8x22B: il MoE Apache 2.0 di Mistral con 39B attivi
    Alto
  12. Snowflake Arctic: MoE 480B totale / 17B attivi, SOTA enterprise SQL
    Medio
  13. DBRX: il MoE open di Databricks da 132B totali e 36B attivi
    Medio
  14. Gemini 1.5 Pro: 1 milione di token nel contesto
    Alto
  15. Mixtral 8x7B: Mixture of Experts open source che batte GPT-3.5
    Pietra miliare
  16. Grok-1: il chatbot di xAI con accesso ai dati real-time di X
    Medio
  17. Wu Dao 2.0: la Cina annuncia un modello da 1,75T parametri
    Medio
  18. Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts
    Alto
← Tutti i termini