DeepSeek-V2: Multi-head Latent Attention e il primo MoE cinese open ad alta efficienza

In una frase DeepSeek pubblica V2: MoE da 236B totali / 21B attivi con Multi-head Latent Attention (MLA), riduce drasticamente la KV cache e abbatte i prezzi API in Cina del 90%, innescando una guerra dei prezzi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Una startup cinese chiamata DeepSeek pubblica gratis i pesi di un grande modello con due idee nuove.

Prima: come Mixtral, usa un "Mixture of Experts" enorme (236 miliardi totali) ma attiva solo 21 miliardi per ogni parola.

Seconda: una nuova tecnica chiamata MLA che comprime drasticamente la "memoria" che il modello deve tenere durante una conversazione lunga. Risultato: 5-10 volte più economico da far girare.

Mettono anche un'API a un prezzo bassissimo (~14× più economica di GPT-4-Turbo). In Cina questo scatena una guerra dei prezzi tra Alibaba, Baidu, ByteDance che tagliano fino al 90%.