Inferenza Intermedio Anche noto come: Key-Value Cache · Cache chiavi-valori

KV Cache

/kay-vee cache/

Memoria temporanea in GPU che conserva i calcoli di attenzione dei token già visti, così il modello non li ricalcola a ogni nuovo token generato.

CondividiLinkedIn X

In pratica

È la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.

Termini collegati

Attention Transformer Inference compute Paged Attention

Visto in azione

4 voci che lo citano

22 gennaio 2025

FlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion

Medio
10 settembre 2024

KV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU

Alto
20 marzo 2024

Automatic Prefix Caching in vLLM: KV cache condiviso tra richieste per TTFT quasi zero

Alto
9 febbraio 2023

vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley

Alto

← Tutti i termini