KV Cache Quantization
La KV cache quantization è la tecnica di comprimere i tensori chiave-valore (key-value) generati dinamicamente durante l'inferenza, riducendoli da FP16 a FP8 o INT8. A differenza della quantizzazione dei pesi, che opera sui parametri statici del modello, questa agisce sulla cache generata a runtime per ogni richiesta. Riduce l'occupazione di VRAM del 50% o più, consentendo context window più lunghe o un maggior numero di richieste concorrenti per GPU. È supportata da vLLM, Text Generation Inference (TGI) e TensorRT-LLM.
In pratica
Un sysadmin che serve un modello da 70B su due GPU A100 80GB e vuole aumentare il batch size concorrente da 8 a 16 richieste abilita KV cache quantization a FP8 in vLLM aggiungendo `--kv-cache-dtype fp8` al comando di avvio. È importante distinguerla dalla quantizzazione dei pesi: i due approcci sono ortogonali e possono essere combinati. In pratica si misurano le degradazioni di qualità su task di lunga distanza (needle-in-haystack, multi-turn) prima di deployare in produzione, poiché la perdita di precisione nella cache è più visibile su contesti lunghi.