In pratica
È ciò che rende un Transformer "causale" o decoder-only: durante il training il modello impara a prevedere il prossimo token senza barare guardando avanti. In inferenza la maschera diventa implicita perché i token futuri non esistono ancora. Senza di essa GPT non avrebbe senso.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.