Dati Intermedio Anche noto come: Tokenizzazione a sotto-parole

Subword Tokenization

Famiglia di tecniche che spezza il testo in pezzi più piccoli di una parola intera ma più grandi di un singolo carattere.

CondividiLinkedIn X

In pratica

È un compromesso tra vocabolari giganti (una parola = un token) e vocabolari minuscoli (un carattere = un token). Permette di gestire parole nuove, errori di battitura e lingue diverse senza esplodere in dimensione. Tutti gli LLM moderni usano una qualche forma di subword tokenization.

Termini collegati

Tokenizer Token BPE WordPiece / SentencePiece

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini