The Pile: il dataset open source da 825 GB che alimenta l'open LLM

In una frase EleutherAI pubblica The Pile, un dataset di 825 GB composto da 22 sotto-dataset diversificati, che diventerà la base per GPT-Neo, GPT-J, Pythia e gran parte dell'ecosistema open.

Verificato Fonte ufficiale

CondividiLinkedIn X

EleutherAI rilascia The Pile, un enorme dataset di 825 GB di testo liberamente scaricabile. È fatto di libri (Project Gutenberg, Books3), Wikipedia, codice (GitHub), articoli scientifici (PubMed, ArXiv), forum (StackExchange, HackerNews), sottotitoli YouTube, e altre 15 fonti.

Perché conta? Perché chi vuole addestrare un modello linguistico ha bisogno di tantissimo testo di buona qualità. Fino a quel momento, le grandi aziende usavano dataset proprietari (Common Crawl filtrato in modo segreto). The Pile è la prima alternativa pubblica seria.

Tutto l'ecosistema open source — GPT-Neo, GPT-J, Pythia, BLOOM in parte — nasce e cresce su The Pile.