DeepSeek-Coder v1: la Cina entra nel mercato dei modelli di coding open source

In una frase DeepSeek rilascia modelli di coding da 1B a 33B parametri addestrati su 2 trilioni di token con FIM avanzato, battendo tutti gli open source su HumanEval.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Fino alla metà del 2023 i migliori modelli di intelligenza artificiale per scrivere codice venivano tutti da aziende americane come OpenAI e Google. DeepSeek, una società cinese, ha cambiato questa situazione con il rilascio di DeepSeek-Coder.

DeepSeek ha addestrato una famiglia di modelli di dimensioni diverse, dal più piccolo da 1 miliardo di parametri fino a quello grande da 33 miliardi, usando una quantità enorme di codice: 2 trilioni di parole/token. Di questo corpus, l'87% era codice puro e il restante 13% testo in linguaggio naturale per aiutare il modello a capire le istruzioni.

Una tecnica particolare chiamata "fill-in-the-middle" (FIM) ha reso questi modelli particolarmente bravi a completare il codice nel mezzo di un file, non solo alla fine: una caratteristica fondamentale per gli strumenti di autocompletamento che usano i developer ogni giorno. Al momento del rilascio, il modello da 33B ha superato tutti gli altri modelli open source nei principali benchmark. DeepSeek-Coder ha segnalato che la competizione nell'AI non era più solo un affare occidentale.