DeepSpeed-FastGen: Dynamic SplitFuse scheduling per 2.3x throughput su vLLM in produzione
In una frase Microsoft DeepSpeed team rilascia FastGen tramite MII: scheduling Dynamic SplitFuse per LLM serving raggiunge 2.3x throughput vs vLLM su carichi di chat production, ottimizzato per Azure H100.
Quando molti utenti usano un servizio AI contemporaneamente, il server deve gestire richieste con lunghezze molto diverse: alcune domande sono brevi, le risposte a volte lunghissime. I sistemi precedenti come vLLM usavano il continuous batching, che è molto meglio del batching statico ma lascia comunque spazio a miglioramenti.
DeepSpeed-FastGen introduce "Dynamic SplitFuse": invece di gestire la fase di prefill (elaborazione del prompt) e la fase di decoding (generazione dei token) come blocchi separati, le divide e le mescola dinamicamente per mantenere la GPU sempre al massimo dell'utilizzo. Le richieste di prefill lungo vengono "spezzate" per non bloccare le richieste di decoding.
Il risultato è 2.3x più throughput rispetto a vLLM su benchmark di chat production, con latenza ridotta specialmente per richieste brevi. DeepSpeed-FastGen è integrato nella libreria MII (Model Implementation and Integration) di Microsoft e ottimizzato specificamente per i cluster H100 di Azure.
Aziende
Microsoft, DeepSpeed Team
Tool
DeepSpeed, DeepSpeed-MII, FastGen, PyTorch
Tag
Fonti