In pratica
È l'architettura di GPT, Llama, Mistral, Claude e di praticamente tutti gli LLM generativi moderni. Si contrappone a encoder-only (BERT, per classificazione) ed encoder-decoder (T5, per traduzione). La sua semplicità è il motivo per cui scala così bene in pretraining.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.