Salta al contenuto
AImpact
IT EN
Alto Modelli open source · 1 min lettura

The Pile: il dataset open source da 825 GB per addestrare LLM

In una frase EleutherAI rilascia The Pile, un dataset composito da 825 GB di testo curato da 22 fonti diverse (arXiv, GitHub, PubMed, libri, StackExchange…), pensato per il pre-training di language model open di grande scala.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Per addestrare un modello come GPT-3 non basta avere computer potenti: serve anche una quantità enorme di testo da dare da leggere al modello. OpenAI tiene questo dataset segreto, ed è uno dei motivi per cui altri non riescono a replicare i loro risultati.

EleutherAI rilascia la propria risposta: The Pile, 825 GB di testo gratis, scaricabile da chiunque. Non è solo Wikipedia copia-incollata: è una selezione ragionata di articoli scientifici, codice open source, libri liberi, dialoghi di Stack Exchange, sottotitoli di film, brevetti, news.

Diventa la base di tantissimi modelli open dei due anni successivi. Per chi vuole studiare o costruire LLM senza dipendere da Big Tech, The Pile è il punto di partenza.

Aziende

EleutherAI

Tool

The Pile

Tag

EleutherAIThe PileDatasetOpen SourcePre-training

Fonti