Salta al contenuto
AImpact
IT EN
Medio Infrastruttura AI · 1 min lettura

DeepSpeed-FastGen: Dynamic SplitFuse scheduling per 2.3x throughput su vLLM in produzione

In una frase Microsoft DeepSpeed team rilascia FastGen tramite MII: scheduling Dynamic SplitFuse per LLM serving raggiunge 2.3x throughput vs vLLM su carichi di chat production, ottimizzato per Azure H100.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Quando molti utenti usano un servizio AI contemporaneamente, il server deve gestire richieste con lunghezze molto diverse: alcune domande sono brevi, le risposte a volte lunghissime. I sistemi precedenti come vLLM usavano il continuous batching, che è molto meglio del batching statico ma lascia comunque spazio a miglioramenti.

DeepSpeed-FastGen introduce "Dynamic SplitFuse": invece di gestire la fase di prefill (elaborazione del prompt) e la fase di decoding (generazione dei token) come blocchi separati, le divide e le mescola dinamicamente per mantenere la GPU sempre al massimo dell'utilizzo. Le richieste di prefill lungo vengono "spezzate" per non bloccare le richieste di decoding.

Il risultato è 2.3x più throughput rispetto a vLLM su benchmark di chat production, con latenza ridotta specialmente per richieste brevi. DeepSpeed-FastGen è integrato nella libreria MII (Model Implementation and Integration) di Microsoft e ottimizzato specificamente per i cluster H100 di Azure.

Aziende

Microsoft, DeepSpeed Team

Tool

DeepSpeed, DeepSpeed-MII, FastGen, PyTorch

Tag

DeepSpeedFastGenMIILLM ServingDynamic SplitFuseMicrosoftAzureH100Throughput

Fonti