DeepSeek-V3: la Cina rilascia un modello frontier open a costo basso scioccante

In una frase DeepSeek pubblica V3, MoE 671B (37B attivi), competitivo con GPT-4o e Claude 3.5 Sonnet. Training: 2.788M GPU-h H800, costo dichiarato $5.6M. Cambia la narrativa 'frontier = miliardi'.

Verificato Fonte ufficiale

CondividiLinkedIn X

A fine dicembre 2024 una startup cinese di Hangzhou, DeepSeek, rilascia un modello open-weights chiamato DeepSeek-V3. È enorme tecnicamente: 671 miliardi di parametri totali in architettura "mixture of experts" (ne usa 37B alla volta). Su benchmark di programmazione, matematica e ragionamento, gareggia con GPT-4o e Claude 3.5 Sonnet, mentre Llama 3.1 405B (l'altro modello open frontier) resta indietro.

La cosa che fa scalpore: DeepSeek dichiara di averlo addestrato con circa 5.6 milioni di dollari di compute (2.788 milioni di ore-GPU H800). OpenAI, Anthropic, Google spendono centinaia di milioni o miliardi su modelli di simile capacità. Anche se i 5.6M sono solo il "training run finale" (escluso ricerca, fallimenti, salari), il numero costringe tutta l'industria a riconsiderare i costi di frontier model.

I pesi sono pubblicati su Hugging Face con licenza commerciale gentile. È il primo modello open che molti consider competitivo davvero con i closed frontier. Apre la strada al "DeepSeek shock" di gennaio 2025 con R1.