Inferenza Avanzato Anche noto come: Decoding speculativo

Speculative Decoding

Tecnica in cui un modello piccolo e veloce propone più token in anticipo e il modello grande li verifica in un singolo passaggio, accettando quelli corretti.

CondividiLinkedIn X

In pratica

Permette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.

Termini collegati

Inference compute Distillation Greedy Decoding Logits

Visto in azione

3 voci che lo citano

18 dicembre 2024

llama.cpp: speculative decoding con draft model per 2-3x speedup

Alto
14 settembre 2023

Medusa: speculative decoding multi-head senza draft model separato, 2.2x speedup

Alto
20 gennaio 2023

Speculative Decoding: 2-3x speedup per l'inferenza LLM senza modificare l'output

Alto

← Tutti i termini