Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

In una frase Review sistematica delle strategie di continuous batching per LLM serving: confronto Orca, vLLM, SGLang e TGI su scheduling, GPU utilization e metriche TTFT/TPOT. Stato dell'arte 2024-2025.

Verificato Fonte ufficiale

CondividiLinkedIn X

Gestire migliaia di richieste contemporanee a un modello AI non è banale: ogni richiesta ha una lunghezza diversa e il tempo di risposta deve essere basso. Il "batching" classico raggruppa richieste dello stesso batch e aspetta che tutte finiscano prima di iniziare le prossime — semplice ma inefficiente perché le richieste brevi aspettano le lunghe.

Il "continuous batching" (introdotto da Orca nel 2022) cambia il paradigma: le nuove richieste entrano nel batch non appena una finisce, step per step. Questo massimizza l'utilizzo della GPU e riduce drasticamente i tempi di attesa. Oggi tutti i framework di serving principali lo implementano, ma in modi diversi con trade-off diversi.

Questa review sistematica confronta i quattro sistemi principali — Orca, vLLM, SGLang e TGI — su architettura di scheduling, gestione KV cache, metriche di latenza (TTFT per la prima risposta, TPOT per i token successivi) e utilizzo GPU. Un riferimento consolidato per chi deve scegliere l'infrastruttura di serving.