Inferenza Avanzato Anche noto come: Batching continuo · In-flight batching

Continuous Batching

Strategia di servizio in cui nuove richieste si uniscono al batch in corso a ogni passo di generazione, invece di aspettare che le precedenti finiscano.

CondividiLinkedIn X

In pratica

Aumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.

Termini collegati

Paged Attention KV Cache Inference compute

Visto in azione

2 voci che lo citano

8 aprile 2025

Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

Medio
6 giugno 2023

HuggingFace TGI: container Docker production-ready per LLM serving con continuous batching

Alto

← Tutti i termini