The Pile: il dataset open source da 825 GB per addestrare LLM

In una frase EleutherAI rilascia The Pile, un dataset composito da 825 GB di testo curato da 22 fonti diverse (arXiv, GitHub, PubMed, libri, StackExchange…), pensato per il pre-training di language model open di grande scala.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per addestrare un modello come GPT-3 non basta avere computer potenti: serve anche una quantità enorme di testo da dare da leggere al modello. OpenAI tiene questo dataset segreto, ed è uno dei motivi per cui altri non riescono a replicare i loro risultati.

EleutherAI rilascia la propria risposta: The Pile, 825 GB di testo gratis, scaricabile da chiunque. Non è solo Wikipedia copia-incollata: è una selezione ragionata di articoli scientifici, codice open source, libri liberi, dialoghi di Stack Exchange, sottotitoli di film, brevetti, news.

Diventa la base di tantissimi modelli open dei due anni successivi. Per chi vuole studiare o costruire LLM senza dipendere da Big Tech, The Pile è il punto di partenza.