Salta al contenuto
AImpact
IT EN
Dati Intermedio Anche noto come: Byte Pair Encoding · Codifica a coppie di byte

BPE

/bee-pee-ee/

Algoritmo di tokenizzazione che parte dai singoli caratteri e fonde via via le coppie più frequenti, fino a creare un vocabolario di sotto-parole.

CondividiLinkedInX

In pratica

È usato da GPT, Llama, Mistral e quasi tutti gli LLM occidentali. Spiega perché "playing" diventa magari `play` + `ing`: pezzi comuni hanno un solo token, parole rare ne usano molti. Influisce direttamente sul costo per token e sulla qualità su lingue non inglesi.

Termini collegati

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini