In pratica
Permette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.