Modelli Intermedio Anche noto come: Maschera causale · Maschera autoregressiva

Causal Mask

Filtro applicato nell'attenzione che impedisce a ogni token di vedere i token che vengono dopo di lui nella sequenza.

In pratica

È ciò che rende un Transformer "causale" o decoder-only: durante il training il modello impara a prevedere il prossimo token senza barare guardando avanti. In inferenza la maschera diventa implicita perché i token futuri non esistono ancora. Senza di essa GPT non avrebbe senso.

Termini collegati

Attention Autoregressive Decoder-only Transformer

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini