SGLang: throughput LLM 6.4x con RadixAttention e prefix caching condiviso
In una frase Stanford e LMSYS rilasciano SGLang, un runtime per LLM che introduce RadixAttention per condividere il prefix caching tra richieste diverse, raggiungendo throughput 6.4x rispetto a vLLM su task con prefissi comuni.
Molte applicazioni AI inviano richieste ai modelli che iniziano sempre allo stesso modo: le istruzioni di sistema, il contesto del documento, la storia della conversazione. Ogni volta, il modello deve ricalcolare tutto dall'inizio, anche se ha già visto quella parte.
SGLang risolve questo problema con un'idea semplice ma potente: memorizza i calcoli già fatti per i prefissi comuni e li riusa per richieste successive. È come avere una memoria del lavoro già svolto, condivisa tra tutti gli utenti del sistema.
Il risultato su task dove molte richieste condividono un prefisso lungo (come RAG, agenti con system prompt fisso, few-shot prompting) è un throughput fino a 6.4 volte superiore a vLLM. Meno GPU necessarie, stessa quantità di lavoro completata.
Aziende
Stanford University, LMSYS
Tool
SGLang, RadixAttention
Tag
Fonti