Disaggregazione prefill/decode: GPU separate per TTFT basso e alto throughput
In una frase La tecnica di disaggregazione prefill/decode separa le fasi di elaborazione del prompt e generazione token su GPU dedicate, riducendo il TTFT mantenendo alto throughput, adottata dai principali cloud provider.
Quando usi un chatbot AI, ci sono due fasi distinte: prima il modello legge e "digerisce" la tua domanda (prefill), poi genera la risposta parola per parola (decode). Queste due fasi hanno caratteristiche molto diverse — la prima è intensa ma breve, la seconda è continua ma meno esigente.
Il problema è che metterle sulla stessa GPU crea compromessi: ottimizzare per la velocità di generazione (decode) rallenta l'elaborazione iniziale (prefill) e viceversa. È come usare lo stesso veicolo sia per il trasporto pesante sia per le consegne veloci.
La disaggregazione separa queste fasi su GPU diverse: alcune GPU "prefill" si occupano solo di elaborare le domande, poi passano il risultato alle GPU "decode" che generano le risposte. Il tempo che l'utente aspetta prima di vedere il primo token (TTFT) si riduce drasticamente, mentre il throughput complessivo rimane alto.
Aziende
Microsoft Research, Google, Bytedance
Tool
vLLM, SGLang, TensorRT-LLM
Tag
Fonti