vLLM v0.7: chunked prefill default e v1 engine ridisegnato

In una frase vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

vLLM è il motore open source più usato per servire LLM in produzione: lo fanno girare aziende come Pinterest, IBM, Snowflake, e una fetta enorme del mondo accademico. La versione 0.7 introduce due grosse novità sotto il cofano.

Prima: il "chunked prefill" diventa attivo di default. In parole semplici, divide la fase iniziale (quando il modello legge il prompt) in pezzettini e la mischia con la fase di generazione, riducendo le latenze e aumentando il throughput senza cambiare modello.

Secondo: un nuovo "engine V1" riscritto da zero, più semplice e più veloce. Su carichi reali si vedono miglioramenti del 50-100% di throughput rispetto a v0.6, e il supporto per modelli grossi MoE (DeepSeek V3/R1) e multimodali è molto più solido.