DeepSeek-V3: qualità GPT-4o a $0.55/M token tramite MLA e pipeline FP8
In una frase Il report tecnico di DeepSeek-V3 rivela Multi-head Latent Attention e una pipeline FP8 completa che permettono prestazioni di livello GPT-4o a $0.55/M token, con training di 671B parametri MoE su cluster H800 con vincoli di budget rigorosi.
Quando DeepSeek ha rilasciato il suo modello V3 all'inizio del 2025, il mondo AI ha ricevuto uno shock: un modello cinese addestrato con un budget molto inferiore ai competitor occidentali offriva prestazioni comparabili ai migliori modelli commerciali, e il costo di utilizzo era 20-40 volte inferiore.
Il report tecnico ha rivelato le ragioni ingegneristiche di questo risultato. La prima è un nuovo tipo di meccanismo di attenzione chiamato Multi-head Latent Attention (MLA), che comprime drasticamente il KV cache necessario durante la generazione, permettendo batch più grandi e costi di memoria ridotti. La seconda è una pipeline di training completamente in FP8 — metà della precisione numerica standard — che ha dimezzato i requisiti di memoria e aumentato la velocità di training.
L'impatto è stato enorme: ha dimostrato che la corsa agli armamenti in termini di budget di training non è l'unico percorso possibile. Con le giuste scelte architetturali e ingegneristiche, si può costruire un modello frontier spendendo meno di 6 milioni di dollari di compute, in un momento in cui i competitor ne spendevano centinaia. Questo report è diventato subito una lettura obbligatoria per qualsiasi team che lavora su infrastruttura AI.
Aziende
DeepSeek
Tool
—
Tag
Fonti