StarCoder: il primo modello open di coding con dati trasparenti

In una frase BigCode e HuggingFace rilasciano StarCoder, 15.5B parametri addestrato su 1 trilione di token da The Stack con 86 linguaggi e governance dei dati opt-out.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Immagina una biblioteca enorme con il codice sorgente di quasi tutti i progetti open source del mondo. BigCode e HuggingFace hanno usato quella biblioteca per addestrare StarCoder, un modello da 15,5 miliardi di parametri capace di scrivere, completare e spiegare codice in 86 linguaggi di programmazione.

La vera novità non è solo la qualità del modello, ma come è stato costruito. Per la prima volta, chi ha pubblicato codice su GitHub poteva chiedere di essere escluso dai dati di addestramento tramite un sistema opt-out. Tutti i dati usati sono tracciabili e documentati nel dataset "The Stack".

Prima di StarCoder, i modelli di coding potenti erano tutti chiusi e proprietari: Codex di OpenAI, Copilot di GitHub, CodeWhisperer di Amazon. StarCoder ha dimostrato che un modello open source con dati trasparenti poteva competere con questi giganti. È diventato la base su cui molti altri modelli aperti sono stati costruiti negli anni successivi, aprendo la strada a una nuova generazione di strumenti di sviluppo accessibili a tutti.