Inferenza Intermedio Anche noto come: Automatic Prefix Caching · APC · Prompt Caching

Prefix Caching

Il prefix caching è una tecnica di inferenza che riutilizza il KV cache già calcolato per prefissi di prompt comuni tra richieste diverse. Anziché ricalcolare le chiavi e i valori di attenzione per le stesse sequenze (es. un system prompt identico), il sistema conserva queste attivazioni in memoria e le recupera direttamente. Riduce drasticamente la latenza per il prefisso condiviso, portandola vicino a zero. È implementato in vLLM come 'Automatic Prefix Caching' e nei servizi cloud di Anthropic e OpenAI come funzionalità fatturata a costo ridotto.

CondividiLinkedIn X

In pratica

Un developer che serve un chatbot con un system prompt fisso di 2000 token beneficia immediatamente del prefix caching: solo la prima richiesta calcola quel prefisso, tutte le successive lo leggono dalla cache. In vLLM si attiva con `--enable-prefix-caching`; nella Anthropic API il prefix caching va dichiarato esplicitamente con `cache_control`. Per applicazioni RAG con documenti condivisi, si struttura il prompt mettendo il documento prima delle domande per massimizzare il riutilizzo della cache.

Termini collegati

KV Cache Paged Attention Continuous Batching Speculative Decoding

Visto in azione

2 voci che lo citano

← Tutti i termini