DeepSeek R1 — Il Reasoning Model Cinese che ha Scosso i Mercati USA

Cos'è: DeepSeek R1 è un reasoning model open-weight (licenza MIT) rilasciato il 20 gennaio 2025 dal laboratorio cinese DeepSeek, controllato dal fondo hedge High-Flyer di Liang Wenfeng. Su benchmark come AIME 2024, MATH-500 e Codeforces ottiene punteggi comparabili a OpenAI o1, modello proprietario non scaricabile. Il paper tecnico associato dichiara un costo di training del modello base V3 (su cui R1 si appoggia) di 5,576 milioni di dollari in tempo-GPU H800, contro le decine o centinaia di milioni stimate per gli equivalenti USA. Una settimana dopo la pubblicazione, l'app DeepSeek arriva in cima all'App Store americano e Nvidia perde il 17% in una sola seduta — circa 600 miliardi di dollari di capitalizzazione, il più grande crollo giornaliero nella storia di una singola azienda quotata.

L'innovazione tecnica: reinforcement learning senza supervisione iniziale

Il paper "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" descrive un'idea controintuitiva. Tutti gli approcci precedenti al reasoning — incluso o1 di OpenAI, per quanto se ne sa — partono da un dataset di catene di pensiero (chain-of-thought) generate o curate da umani, e poi affinano il modello. DeepSeek prova un'altra strada con il modello intermedio "R1-Zero": prende il base model V3, salta completamente la fase di supervised fine-tuning, e applica direttamente reinforcement learning con un reward semplice — è corretto il risultato finale? — su problemi matematici e di programmazione.

Il risultato sorprende anche gli autori: R1-Zero impara da solo a "pensare ad alta voce", a verificare i propri passaggi, a riformulare problemi, persino a esibire quello che il paper chiama un "aha moment", momenti in cui il modello esplicitamente riconosce un errore di ragionamento e ricomincia. Il modello finale R1, costruito poi con un piccolo cold start di SFT seguito da nuovo RL, eredita queste capacità con un linguaggio più leggibile. È la prima dimostrazione pubblica e replicabile che il comportamento "reasoning" può emergere principalmente da RL su reward verificabili, e non richiede necessariamente labeling umano massiccio del processo di ragionamento.

Il numero da 5,6 milioni: cosa significa davvero

La cifra di 5,576 milioni di dollari, riportata nel paper tecnico di DeepSeek-V3 (dicembre 2024) e ripresa dal mercato come "costo di R1", merita lettura attenta. È calcolata moltiplicando le ore-GPU del solo training run finale di V3 (2,788 milioni di ore-H800) per un prezzo di noleggio cloud di 2 dollari/ora. Non include: il costo dei tentativi falliti precedenti, gli stipendi dei ricercatori, l'investimento in dataset, l'hardware proprietario di High-Flyer (che secondo SemiAnalysis possiede circa 50.000 GPU H100/H800 acquistate prima dei controlli sull'export), né il training successivo di R1.

Una stima più onesta del costo totale di R&D del programma DeepSeek nel 2024 si avvicina probabilmente al miliardo di dollari, secondo l'analisi più dettagliata pubblicata da SemiAnalysis il 31 gennaio 2025. Resta vero, tuttavia, che il run finale di training è stato realizzato con un budget di un ordine di grandezza inferiore a quanto si presumeva fosse il minimo necessario per modelli frontier — e questo, di per sé, è una rivelazione di efficienza che molti laboratori USA hanno dovuto interiorizzare in fretta.

Il panico di Wall Street e la tesi "tutti i CAPEX sono persi"

Il lunedì 27 gennaio 2025 Nvidia chiude a -16,97%, bruciando 593 miliardi di dollari di market cap in una giornata. ASML perde il 7%, TSMC il 13%, Broadcom il 17%, Oracle l'8%, Vistra Energy (uno dei fornitori energetici dei data center AI) il 28%. Tutta la catena di approvvigionamento dell'AI viene rivalutata in poche ore. La tesi del mercato è semplice: se è possibile addestrare reasoning model competitivi con o1 a una frazione del costo, allora le spese in conto capitale annunciate da Microsoft (80 miliardi nel 2025), Meta (60-65 miliardi), Google (75 miliardi) e Amazon (oltre 100 miliardi) sono sovrastimate, e con esse la domanda di GPU.

Negli giorni successivi la tesi viene parzialmente smontata. Il "Jevons paradox" applicato all'AI — più efficienti diventano i modelli, più ne facciamo girare — viene citato da Satya Nadella e altri come motivo per cui un calo del costo di training si traduce comunque in domanda crescente di calcolo per inferenza. Nvidia recupera la maggior parte delle perdite nel giro di un mese. Ma la psicologia del mercato resta segnata: il monopolio strutturale che il mercato aveva prezzato dentro le valutazioni tech ha ricevuto la sua prima vera ferita.

Censura, export controls e la dimensione geopolitica

R1 è un modello cinese, e mostra immediatamente i limiti del fatto. Su qualsiasi domanda relativa a Tiananmen 1989, Xi Jinping, l'indipendenza di Taiwan, le proteste di Hong Kong o le politiche su Xinjiang, il modello rifiuta o produce risposte allineate alla linea ufficiale del PCC. La censura è implementata in parte nel training, in parte come safety layer applicato sopra le API ufficiali — chi scarica i pesi dalla licenza MIT e li serve in locale ottiene un comportamento parzialmente diverso, ma il bias di training resta. È la prima volta che un modello frontier con censura politica esplicita diventa popolare in occidente.

Sul piano geopolitico, R1 è l'argomento più convincente per i critici degli export controls. Gli USA hanno proibito l'export di GPU H100 verso la Cina nell'ottobre 2022, e di H800 nell'ottobre 2023. DeepSeek dichiara di aver addestrato V3 e R1 su H800 acquistate prima del bando, ottimizzando aggressivamente per la banda di interconnessione ridotta del chip. Il messaggio implicito: i controlli ritardano ma non bloccano, e l'efficienza algoritmica può compensare l'embargo hardware. L'amministrazione Trump rispondendo a fine gennaio 2025 valuta sanzioni dirette contro DeepSeek; la commissione export del Congresso apre un'inchiesta. Il dibattito sull'open-weight, fino al 2024 prevalentemente americano, diventa improvvisamente bipartisan e geopolitico.

Link alla fonte originale

DeepSeek-R1 — GitHub repository →

DeepSeek R1 è stato pubblicato il 20 gennaio 2025 su GitHub e Hugging Face con licenza MIT. Il modello principale ha 671B parametri totali (37B attivi per token, architettura Mixture-of-Experts). Le varianti "distilled" (DeepSeek-R1-Distill-Llama-70B, -Qwen-32B, ecc.) sono modelli più piccoli fine-tuned sui dati generati da R1. Il costo di training dichiarato di 5,576 milioni di dollari si riferisce al solo run finale di DeepSeek-V3 (base model), pubblicato il 26 dicembre 2024. Il crollo Nvidia del 27 gennaio 2025 (-16,97%, circa 593 miliardi di market cap persi) è il maggiore calo giornaliero di una singola azienda quotata nella storia dei mercati USA.