The Pile: il dataset open source da 825 GB per addestrare LLM
EleutherAI rilascia The Pile, un dataset composito da 825 GB di testo curato da 22 fonti diverse (arXiv, GitHub, PubMed, libri, StackExchange…), pensato per il pre-training di language model open di grande scala.