DeepSeek V3 — Il Paper Tecnico del Modello da 671B che ha Sorpreso il Mondo

Cos'è: DeepSeek V3 è un Large Language Model open-weight rilasciato dal laboratorio cinese DeepSeek a fine dicembre 2024, accompagnato da un technical report di oltre 50 pagine. Conta 671 miliardi di parametri totali strutturati come Mixture-of-Experts, di cui solo 37 miliardi attivi per token. Il paper dichiara un costo di training di 5,6 milioni di dollari per 2.788.000 ore-GPU su H800 (la variante export-compliant dell'H100). Le performance dichiarate superano GPT-4o e Claude 3.5 Sonnet su diversi benchmark di matematica e coding, pur essendo distribuito con licenza MIT. Il rilascio ha innescato il crollo del 17% di NVIDIA il 27 gennaio 2025, il più grande calo di market cap della storia per una singola azienda.

Architettura: MLA e DeepSeekMoE

Il primo elemento distintivo dell'architettura è la Multi-head Latent Attention (MLA), già introdotta in DeepSeek V2 e raffinata in V3. L'attenzione classica memorizza chiavi e valori (KV cache) di dimensione proporzionale al numero di teste per la dimensione di ogni testa per la lunghezza del contesto: durante l'inferenza autoregressiva diventa il principale collo di bottiglia di memoria. MLA proietta chiavi e valori in uno spazio latente compresso di dimensione molto minore — circa il 6-7% della cache standard — e li ricostruisce al volo solo quando necessario. Il risultato è un risparmio drammatico di VRAM durante il serving senza degradare la qualità.

Il secondo elemento è DeepSeekMoE: un'implementazione della Mixture-of-Experts con 256 esperti routed e 1 esperto shared sempre attivo. Per ogni token, un router top-k seleziona 8 esperti routed più l'esperto shared. Il risultato è che dei 671 miliardi di parametri totali, solo 37 miliardi vengono effettivamente coinvolti nella computazione per ciascun token. Rispetto agli MoE classici come Mixtral (8 esperti totali, 2 attivi), il rapporto granularità/specializzazione è molto più spinto: più esperti, ciascuno più piccolo e più specializzato, con uno shared expert che cattura le competenze generali condivise.

Auxiliary-loss-free load balancing

Uno dei problemi tradizionali degli MoE è il load balancing: senza vincoli espliciti, il router tende a sovraccaricare alcuni esperti lasciandone altri inattivi, causando collassi di capacità. La soluzione standard è aggiungere una loss ausiliaria che penalizza gli sbilanciamenti, ma questa loss interferisce con l'obiettivo principale (la next-token prediction) e degrada leggermente la qualità.

DeepSeek V3 introduce un meccanismo auxiliary-loss-free: invece di aggiungere un termine alla loss, regola dinamicamente un bias additivo per ogni esperto in base al carico osservato negli step recenti. Esperti sovraccarichi ricevono un bias negativo che li rende meno probabili da selezionare al prossimo round; esperti sottoutilizzati ricevono un bias positivo. Il bias non entra nel gradiente — non distorce la direzione di apprendimento — ma riequilibra l'occupazione degli esperti. Il paper riporta che questo approccio migliora marginalmente la performance rispetto alla loss ausiliaria classica, mantenendo il load balancing entro tolleranze stringenti.

Multi-Token Prediction come auxiliary objective

DeepSeek V3 affianca al classico obiettivo di next-token prediction un secondo obiettivo: Multi-Token Prediction (MTP). Durante il training, il modello deve predire non solo il token successivo, ma anche i 2-3 token immediatamente seguenti tramite teste di predizione aggiuntive. Questo costringe la rete a costruire rappresentazioni interne più ricche e a lungo raggio, e fornisce un segnale di supervisione più denso senza modificare i dati di training.

L'MTP non viene usato direttamente in inferenza nella versione standard, ma le teste extra abilitano lo speculative decoding: il modello propone più token in avanti, che poi vengono verificati o scartati con un singolo forward pass aggiuntivo. Il paper riporta accelerazioni di inferenza di 1,8× con accuracy preservata.

Training in FP8: il primo frontier model

DeepSeek V3 è il primo modello frontier ad essere addestrato interamente in FP8 mixed precision. La precisione standard per il training di modelli di queste dimensioni è BF16 o una combinazione FP16/FP32. FP8 (8 bit per peso, con due varianti E4M3 ed E5M2) dimezza la memoria e raddoppia il throughput dei tensor core dell'H800 e dell'H100, ma è notoriamente instabile per il training di grandi modelli: il range numerico ridotto causa overflow e underflow frequenti.

Il paper descrive in dettaglio le tecniche per stabilizzare FP8: quantizzazione fine-grained per blocchi (block-wise scaling) invece che per tensore intero, accumulazione in FP32 per le moltiplicazioni di matrici critiche, online tile-wise scaling per gli outlier. Il risultato è un training stabile con loss curve indistinguibile da quella in BF16. L'efficienza hardware ottenuta è circa il 30% superiore a quella di equivalenti BF16, ed è una delle componenti principali del basso costo dichiarato.

Il costo di training riportato — 5,6 milioni di dollari per 2.788.000 H800-ore — corrisponde a circa due dollari l'ora per GPU. Per confronto, i costi stimati per GPT-4 sono nell'ordine dei 100 milioni di dollari, e per Claude 3 Opus o Gemini Ultra superiori. Il numero ha generato un acceso dibattito: copre solo il run finale di training, non i tentativi falliti, le ablation, gli esperimenti preliminari, né i dati. Stime indipendenti collocano il costo totale del progetto tra i 50 e i 150 milioni di dollari, ancora una frazione dei competitor americani.

Performance e implicazioni

I benchmark riportati nel paper mostrano DeepSeek V3 sopra GPT-4o e Claude 3.5 Sonnet su MMLU (88,5), MATH (90,2), HumanEval-Mul (82,6) e diversi altri test di reasoning e coding. Le performance su scrittura creativa, instruction following soggettivo e conversazione multilingue restano leggermente inferiori ai modelli proprietari occidentali, ma il divario è il più stretto mai registrato per un modello open-weight.

Il rilascio sotto licenza MIT — con pesi scaricabili da HuggingFace e codice di training parzialmente open — ha avuto un impatto geopolitico ed economico immediato. Il 27 gennaio 2025, una settimana dopo il lancio pubblico di DeepSeek R1 (il modello di reasoning costruito sopra V3), NVIDIA ha perso il 17% in una singola seduta, bruciando circa 600 miliardi di dollari di market cap. Il mercato ha letto il paper come un segnale che il training di modelli frontier non richiede necessariamente cluster da decine di migliaia di H100, mettendo in discussione la tesi del "more compute is all you need" che aveva sostenuto la corsa agli investimenti hardware del 2023-2024.

L'interpretazione corretta è probabilmente più sfumata: DeepSeek V3 dimostra che con ingegneria di alto livello — MLA, FP8, auxiliary-loss-free routing, kernel CUDA scritti a mano — si può ridurre il costo del frontier di un ordine di grandezza. Ma è ancora un modello addestrato su 14,8 trilioni di token, con un'infrastruttura non banale, e la sua riproducibilità da parte di un attore con risorse minori resta da dimostrare. Il paper, in ogni caso, è il documento tecnico più discusso del 2024 e segna un punto di svolta nella narrativa sul rapporto tra capitale, talento ingegneristico e capacità di frontiera nell'AI.

Link alla fonte originale

github.com/deepseek-ai/DeepSeek-V3 →

Technical report PDF originale EN, DeepSeek-AI, dicembre 2024. Pesi del modello distribuiti su HuggingFace con licenza MIT. Repository del codice di inferenza pubblico su GitHub.