Salta al contenuto
AImpact
IT EN
Medio Infrastruttura AI · 1 min lettura

FlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion

In una frase UW + MIT rilasciano FlashInfer 0.2: libreria CUDA per attention in LLM serving con paged KV cache nativo, variable-length sequences, RoPE fusion e 1.5x speedup vs vLLM su prefill lungo su A100.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Il serving di modelli linguistici in produzione ha esigenze diverse dal training: le richieste arrivano in continuazione con lunghezze variabili, la KV cache deve essere gestita efficientemente, e il RoPE (il meccanismo di posizione relativa usato da LLaMA e altri modelli) deve essere calcolato ad ogni passo.

FlashInfer è una libreria CUDA specializzata per questi pattern di accesso specifici del serving, diversi da quelli del training dove FlashAttention eccelle. La versione 0.2 introduce il supporto nativo per la paged KV cache — dove la memoria è divisa in blocchi non contigui come in un sistema operativo — e la fusione del calcolo RoPE direttamente nel kernel di attenzione.

Il risultato è 1.5x di speedup rispetto all'implementazione vLLM standard su prefill lungo (richieste con prompt di migliaia di token) su GPU A100. Adottato come backend primario da SGLang e opzionale in vLLM.

Aziende

University of Washington, MIT

Tool

FlashInfer, vLLM, SGLang, PyTorch, CUDA

Tag

FlashInferAttentionKV CachePaged AttentionRoPEvLLMSGLangUniversity of WashingtonMITLLM Serving

Fonti