Salta al contenuto
AImpact
IT EN
Inferenza Avanzato Anche noto come: PagedAttention

Paged Attention

Tecnica che divide la KV cache in piccoli blocchi gestiti come pagine di memoria virtuale, riducendo lo spreco di VRAM tra richieste diverse.

CondividiLinkedInX

In pratica

È il cuore del motore vLLM e oggi standard nei server di inferenza moderni. Permette di servire molti più utenti con la stessa GPU perché evita di riservare blocchi grandi e quasi vuoti. Per chi sceglie un runtime self-hosted, il supporto a paged attention è un requisito di base.

Termini collegati

← Tutti i termini