Automatic Prefix Caching in vLLM: KV cache condiviso tra richieste per TTFT quasi zero

In una frase vLLM v0.3.3 introduce l'Automatic Prefix Caching che riutilizza il KV cache per prefissi comuni tra richieste diverse, eliminando quasi completamente il tempo di risposta iniziale per system prompt e documenti RAG già elaborati.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Quando un modello LLM risponde a una domanda, prima di generare una parola deve elaborare tutto il testo che è stato dato come contesto — il system prompt, la cronologia della conversazione, i documenti recuperati. Questo processo si chiama prefill e può richiedere molto tempo e molta memoria.

Il prefix caching funziona come una memoria fotografica per il lavoro già fatto. Immagina di dover rispondere a mille domande diverse su un documento lungo, dove il documento è sempre lo stesso ma le domande cambiano. Senza prefix caching, ogni volta il modello rilegge e rielabora l'intero documento da zero. Con il prefix caching, il risultato dell'elaborazione del documento viene salvato e riutilizzato per tutte le domande successive.

In pratica questo significa che la prima volta che viene elaborato un system prompt, un documento o qualsiasi prefisso lungo, il tempo è normale. Ma dalla seconda richiesta in poi — anche da utenti diversi — quella parte è istantanea. Per chatbot con system prompt lunghi, per sistemi RAG che recuperano sempre gli stessi documenti, o per applicazioni dove molti utenti fanno domande su un contesto comune, il TTFT (tempo alla prima parola generata) può calare del 90% o più.