Speculative Decoding: 2-3x speedup per l'inferenza LLM senza modificare l'output

In una frase Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.

Verificato Fonte ufficiale

CondividiLinkedIn X

Generare testo con un modello linguistico grande è lento perché ogni token viene prodotto uno alla volta: il modello deve finire di calcolare il token precedente prima di iniziare il successivo. Non si può parallelizzare facilmente, perché ogni passo dipende da quello prima.

L'idea di Speculative Decoding è elegante: usa prima un modello piccolo e veloce per proporre una sequenza di 4-8 token in una volta. Poi il modello grande verifica tutta la sequenza in parallelo — cosa che può fare perché conosce già tutti i token proposti. I token corretti vengono accettati, quelli sbagliati scartati e ricalcolati.

L'output finale è identico a quello del modello grande puro. Ma siccome la maggior parte dei token proposti dal piccolo sono corretti, si risparmiano 2-3x le chiamate al modello grande. Una delle idee più intelligenti nell'inferenza LLM degli ultimi anni.