StarCoder2: 619 linguaggi, 4T token e governance dei dati al prossimo livello

In una frase BigCode rilascia StarCoder2 in tre taglie (3B/7B/15B) addestrato su 4 trilioni di token da The Stack v2 con 619 linguaggi e il sistema di governance dei dati piu trasparente mai visto per un modello di coding.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

StarCoder2 è il successore di StarCoder, e il miglioramento rispetto alla versione precedente è notevole su tutti i fronti. La versione precedente copriva 86 linguaggi di programmazione; StarCoder2 ne copre 619, praticamente ogni linguaggio di programmazione che sia mai stato scritto in modo significativo.

Il dataset di addestramento, chiamato The Stack v2, è quadruplicato rispetto alla versione precedente arrivando a 4 trilioni di token. Per dare un'idea della scala: sarebbe come leggere ogni libro tecnico mai scritto decine di migliaia di volte.

La cosa più importante per molti sviluppatori è come sono stati gestiti i dati. BigCode ha lavorato con Software Heritage, l'archivio mondiale del codice sorgente, per garantire che ogni pezzo di codice nei dati di addestramento avesse una provenienza tracciabile. Il sistema opt-out è stato migliorato. Il modello da 15B parametri raggiunge prestazioni simili a Code Llama 70B, un modello quattro volte più grande. Questo lo rende molto efficiente da ospitare e usare su hardware normale, aprendo possibilità concrete per deployment aziendale senza dipendere da API cloud.