In pratica
È un compromesso tra vocabolari giganti (una parola = un token) e vocabolari minuscoli (un carattere = un token). Permette di gestire parole nuove, errori di battitura e lingue diverse senza esplodere in dimensione. Tutti gli LLM moderni usano una qualche forma di subword tokenization.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.