In pratica
È la parte più costosa (mesi di GPU e milioni di dollari) e produce un modello "base" che sa scrivere ma non sa ancora seguire istruzioni. Solo i grandi laboratori la fanno da zero; le aziende ripartono da modelli pre-addestrati e li adattano con SFT, LoRA o RLHF.
Termini collegati
Visto in azione
6 voci che lo citano- AltoGR-2: ByteDance preaddestra robot su 38.000 ore di video umani da internet
- MedioUL2: Google unifica i paradigmi di addestramento con Mixture-of-Denoisers
- AltoThe Pile: il dataset open source da 825 GB che alimenta l'open LLM
- AltoThe Pile: il dataset open source da 825 GB per addestrare LLM
- MedioImage GPT: pre-training generativo per le immagini
- MedioELECTRA: pre-training NLP più efficiente di BERT