Salta al contenuto
AImpact
IT EN
Dati Intermedio Anche noto come: WordPiece · SentencePiece

WordPiece / SentencePiece

Due algoritmi di tokenizzazione a sotto-parole alternativi a BPE: WordPiece è quello di BERT, SentencePiece è quello di T5 e Gemini.

CondividiLinkedInX

In pratica

WordPiece sceglie le fusioni in base a probabilità invece che a frequenza pura. SentencePiece lavora direttamente sulla stringa grezza senza dare per scontati gli spazi, quindi gestisce meglio cinese, giapponese e lingue senza separatori. Cambiare tokenizzatore richiede ri-addestrare il modello.

Termini collegati

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini