Salta al contenuto
AImpact
IT EN
Inferenza Avanzato Anche noto come: Batching continuo · In-flight batching

Continuous Batching

Strategia di servizio in cui nuove richieste si uniscono al batch in corso a ogni passo di generazione, invece di aspettare che le precedenti finiscano.

CondividiLinkedInX

In pratica

Aumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.

Termini collegati

← Tutti i termini