In pratica
Aumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.