DeepSeek-V3: qualità GPT-4o a $0.55/M token tramite MLA e pipeline FP8

In una frase Il report tecnico di DeepSeek-V3 rivela Multi-head Latent Attention e una pipeline FP8 completa che permettono prestazioni di livello GPT-4o a $0.55/M token, con training di 671B parametri MoE su cluster H800 con vincoli di budget rigorosi.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Quando DeepSeek ha rilasciato il suo modello V3 all'inizio del 2025, il mondo AI ha ricevuto uno shock: un modello cinese addestrato con un budget molto inferiore ai competitor occidentali offriva prestazioni comparabili ai migliori modelli commerciali, e il costo di utilizzo era 20-40 volte inferiore.

Il report tecnico ha rivelato le ragioni ingegneristiche di questo risultato. La prima è un nuovo tipo di meccanismo di attenzione chiamato Multi-head Latent Attention (MLA), che comprime drasticamente il KV cache necessario durante la generazione, permettendo batch più grandi e costi di memoria ridotti. La seconda è una pipeline di training completamente in FP8 — metà della precisione numerica standard — che ha dimezzato i requisiti di memoria e aumentato la velocità di training.

L'impatto è stato enorme: ha dimostrato che la corsa agli armamenti in termini di budget di training non è l'unico percorso possibile. Con le giuste scelte architetturali e ingegneristiche, si può costruire un modello frontier spendendo meno di 6 milioni di dollari di compute, in un momento in cui i competitor ne spendevano centinaia. Questo report è diventato subito una lettura obbligatoria per qualsiasi team che lavora su infrastruttura AI.