Salta al contenuto
AImpact
IT EN
Medio Infrastruttura AI · 1 min lettura

Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

In una frase Review sistematica delle strategie di continuous batching per LLM serving: confronto Orca, vLLM, SGLang e TGI su scheduling, GPU utilization e metriche TTFT/TPOT. Stato dell'arte 2024-2025.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Gestire migliaia di richieste contemporanee a un modello AI non è banale: ogni richiesta ha una lunghezza diversa e il tempo di risposta deve essere basso. Il "batching" classico raggruppa richieste dello stesso batch e aspetta che tutte finiscano prima di iniziare le prossime — semplice ma inefficiente perché le richieste brevi aspettano le lunghe.

Il "continuous batching" (introdotto da Orca nel 2022) cambia il paradigma: le nuove richieste entrano nel batch non appena una finisce, step per step. Questo massimizza l'utilizzo della GPU e riduce drasticamente i tempi di attesa. Oggi tutti i framework di serving principali lo implementano, ma in modi diversi con trade-off diversi.

Questa review sistematica confronta i quattro sistemi principali — Orca, vLLM, SGLang e TGI — su architettura di scheduling, gestione KV cache, metriche di latenza (TTFT per la prima risposta, TPOT per i token successivi) e utilizzo GPU. Un riferimento consolidato per chi deve scegliere l'infrastruttura di serving.

Aziende

vLLM Project, Hugging Face, University of California Berkeley, MIT

Tool

vLLM, SGLang, TGI, Orca, PagedAttention

Tag

Continuous BatchingLLM ServingOrcavLLMSGLangTGITTFTTPOTGPU UtilizationSurveyScheduling

Fonti