vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley
In una frase Il team della UC Berkeley pubblica vLLM, libreria Python per inference LLM con PagedAttention che gestisce la KV cache come memoria virtuale OS, raggiungendo throughput 24x superiore alla baseline HuggingFace.
Quando si usa un modello linguistico di grandi dimensioni, c'è un problema nascosto: la memoria occupata dai calcoli intermedi (la KV cache) viene gestita in modo molto inefficiente. vLLM risolve questo problema adottando la stessa idea con cui i sistemi operativi gestiscono la RAM.
Invece di riservare blocchi di memoria contigui (che spesso rimangono parzialmente vuoti), vLLM divide la KV cache in "pagine" piccole e le alloca dove c'è spazio, esattamente come fa Linux con la memoria virtuale. Questo elimina quasi completamente gli sprechi.
Il risultato è impressionante: la stessa GPU può servire molte più richieste in parallelo, con un throughput fino a 24 volte superiore rispetto al modo tradizionale. vLLM diventa rapidamente la libreria di riferimento per chiunque voglia servire LLM in produzione senza cambiare hardware.
Aziende
UC Berkeley
Tool
vLLM, PagedAttention
Tag
Fonti