DeepSeek-Coder-V2: qualita GPT-4 Turbo su coding con pesi aperti

In una frase DeepSeek rilascia Coder-V2 in versione 16B e 236B MoE, addestrato su 6T token in 338 linguaggi. Primo modello open a superare GPT-4 Turbo sui benchmark di coding e primo a scalare SWE-bench in open weight.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Immagina di avere uno strumento gratuito e scaricabile che scrive codice meglio di uno degli strumenti a pagamento piu potenti al mondo. Questo e quello che DeepSeek ha reso possibile con Coder-V2.

DeepSeek-Coder-V2 usa un'architettura particolare chiamata "Mixture of Experts" (MoE): invece di attivare tutti i miliardi di parametri del modello per ogni risposta, attiva solo i sottoinsiemi di "esperti" piu rilevanti per il problema specifico. Questo rende il modello molto piu efficiente: la versione grande ha 236 miliardi di parametri totali ma ne usa solo una frazione per ogni singola operazione.

Il risultato pratico: il modello piu grande supera GPT-4 Turbo nei principali benchmark di codice, incluso SWE-bench che simula la risoluzione di bug reali in repository GitHub reali. E' stato il primo modello con pesi aperti a raggiungere questo risultato. Copre 338 linguaggi di programmazione e ha una finestra di contesto di 128k token. Per le aziende che vogliono capacita di coding AI senza dipendere da API cloud con costi variabili, questo ha rappresentato un cambiamento significativo.