Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Automatic Prefix Caching · APC · Prompt Caching

Prefix Caching

Il prefix caching è una tecnica di inferenza che riutilizza il KV cache già calcolato per prefissi di prompt comuni tra richieste diverse. Anziché ricalcolare le chiavi e i valori di attenzione per le stesse sequenze (es. un system prompt identico), il sistema conserva queste attivazioni in memoria e le recupera direttamente. Riduce drasticamente la latenza per il prefisso condiviso, portandola vicino a zero. È implementato in vLLM come 'Automatic Prefix Caching' e nei servizi cloud di Anthropic e OpenAI come funzionalità fatturata a costo ridotto.

CondividiLinkedInX

In pratica

Un developer che serve un chatbot con un system prompt fisso di 2000 token beneficia immediatamente del prefix caching: solo la prima richiesta calcola quel prefisso, tutte le successive lo leggono dalla cache. In vLLM si attiva con `--enable-prefix-caching`; nella Anthropic API il prefix caching va dichiarato esplicitamente con `cache_control`. Per applicazioni RAG con documenti condivisi, si struttura il prompt mettendo il documento prima delle domande per massimizzare il riutilizzo della cache.

Termini collegati

← Tutti i termini