Speculative Decoding: 2-3x speedup per l'inferenza LLM senza modificare l'output
In una frase Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.
Generare testo con un modello linguistico grande è lento perché ogni token viene prodotto uno alla volta: il modello deve finire di calcolare il token precedente prima di iniziare il successivo. Non si può parallelizzare facilmente, perché ogni passo dipende da quello prima.
L'idea di Speculative Decoding è elegante: usa prima un modello piccolo e veloce per proporre una sequenza di 4-8 token in una volta. Poi il modello grande verifica tutta la sequenza in parallelo — cosa che può fare perché conosce già tutti i token proposti. I token corretti vengono accettati, quelli sbagliati scartati e ricalcolati.
L'output finale è identico a quello del modello grande puro. Ma siccome la maggior parte dei token proposti dal piccolo sono corretti, si risparmiano 2-3x le chiamate al modello grande. Una delle idee più intelligenti nell'inferenza LLM degli ultimi anni.
Aziende
Google Brain
Tool
PyTorch, JAX
Tag
Fonti