Salta al contenuto
AImpact
IT EN
Inferenza Avanzato Anche noto come: Decoding speculativo

Speculative Decoding

Tecnica in cui un modello piccolo e veloce propone più token in anticipo e il modello grande li verifica in un singolo passaggio, accettando quelli corretti.

CondividiLinkedInX

In pratica

Permette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.

Termini collegati

← Tutti i termini