In pratica
È la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.
Termini collegati
Visto in azione
4 voci che lo citano- MedioFlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion
- AltoKV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU
- AltoAutomatic Prefix Caching in vLLM: KV cache condiviso tra richieste per TTFT quasi zero
- AltovLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley