DeepSeek-Coder-V2: qualita GPT-4 Turbo su coding con pesi aperti
In una frase DeepSeek rilascia Coder-V2 in versione 16B e 236B MoE, addestrato su 6T token in 338 linguaggi. Primo modello open a superare GPT-4 Turbo sui benchmark di coding e primo a scalare SWE-bench in open weight.
Immagina di avere uno strumento gratuito e scaricabile che scrive codice meglio di uno degli strumenti a pagamento piu potenti al mondo. Questo e quello che DeepSeek ha reso possibile con Coder-V2.
DeepSeek-Coder-V2 usa un'architettura particolare chiamata "Mixture of Experts" (MoE): invece di attivare tutti i miliardi di parametri del modello per ogni risposta, attiva solo i sottoinsiemi di "esperti" piu rilevanti per il problema specifico. Questo rende il modello molto piu efficiente: la versione grande ha 236 miliardi di parametri totali ma ne usa solo una frazione per ogni singola operazione.
Il risultato pratico: il modello piu grande supera GPT-4 Turbo nei principali benchmark di codice, incluso SWE-bench che simula la risoluzione di bug reali in repository GitHub reali. E' stato il primo modello con pesi aperti a raggiungere questo risultato. Copre 338 linguaggi di programmazione e ha una finestra di contesto di 128k token. Per le aziende che vogliono capacita di coding AI senza dipendere da API cloud con costi variabili, questo ha rappresentato un cambiamento significativo.
Aziende
DeepSeek
Tool
—
Tag
Fonti