DeepSpeed-FastGen: Dynamic SplitFuse scheduling per 2.3x throughput su vLLM in produzione

In una frase Microsoft DeepSpeed team rilascia FastGen tramite MII: scheduling Dynamic SplitFuse per LLM serving raggiunge 2.3x throughput vs vLLM su carichi di chat production, ottimizzato per Azure H100.

Verificato Fonte ufficiale

CondividiLinkedIn X

Quando molti utenti usano un servizio AI contemporaneamente, il server deve gestire richieste con lunghezze molto diverse: alcune domande sono brevi, le risposte a volte lunghissime. I sistemi precedenti come vLLM usavano il continuous batching, che è molto meglio del batching statico ma lascia comunque spazio a miglioramenti.

DeepSpeed-FastGen introduce "Dynamic SplitFuse": invece di gestire la fase di prefill (elaborazione del prompt) e la fase di decoding (generazione dei token) come blocchi separati, le divide e le mescola dinamicamente per mantenere la GPU sempre al massimo dell'utilizzo. Le richieste di prefill lungo vengono "spezzate" per non bloccare le richieste di decoding.

Il risultato è 2.3x più throughput rispetto a vLLM su benchmark di chat production, con latenza ridotta specialmente per richieste brevi. DeepSpeed-FastGen è integrato nella libreria MII (Model Implementation and Integration) di Microsoft e ottimizzato specificamente per i cluster H100 di Azure.