Inferenza Avanzato Anche noto come: PagedAttention

Paged Attention

Tecnica che divide la KV cache in piccoli blocchi gestiti come pagine di memoria virtuale, riducendo lo spreco di VRAM tra richieste diverse.

CondividiLinkedIn X

In pratica

È il cuore del motore vLLM e oggi standard nei server di inferenza moderni. Permette di servire molti più utenti con la stessa GPU perché evita di riservare blocchi grandi e quasi vuoti. Per chi sceglie un runtime self-hosted, il supporto a paged attention è un requisito di base.

Termini collegati

KV Cache Attention Continuous Batching Inference compute

Visto in azione

4 voci che lo citano

2 luglio 2025

vLLM v0.7: chunked prefill default e v1 engine ridisegnato

Medio
8 aprile 2025

Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

Medio
22 gennaio 2025

FlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion

Medio
9 febbraio 2023

vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley

Alto

← Tutti i termini