Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Key-Value Cache · Cache chiavi-valori

KV Cache

/kay-vee cache/

Memoria temporanea in GPU che conserva i calcoli di attenzione dei token già visti, così il modello non li ricalcola a ogni nuovo token generato.

CondividiLinkedInX

In pratica

È la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.

Termini collegati

← Tutti i termini