DevOps / LLMOps: inferenza, stack e ottimizzazione in produzione

vLLM, Ollama, quantizzazione e latency: il percorso operativo per chi fa girare LLM sul serio.

Sei un DevOps, MLOps o LLMOps engineer che deve mettere in produzione modelli linguistici con requisiti reali di latenza, throughput e costo. Questo percorso segue l'evoluzione dell'infrastruttura di inferenza: dai chip che ne definiscono i limiti fisici, agli stack open source che li sfruttano al massimo, fino alle tecniche di quantizzazione che abbattono i requisiti hardware senza sacrificare la qualità.

01

Perché conta per te

Il framework Microsoft che ha reso praticabile il training distribuito su centinaia di GPU con ZeRO stage 3: capire come partiziona optimizer state, gradienti e parametri è il fondamento per qualsiasi pipeline MLOps su cluster.

9 settembre 2020 Alto Infrastruttura AI

DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.
02

Perché conta per te

La prima dimostrazione pubblica che un chip inference-only può superare le GPU di ordini di grandezza in tokens/s: cambia i benchmark di riferimento per la latency SLA e impone di rivalutare le scelte hardware in ogni stack LLMOps.

22 febbraio 2024 Alto Infrastruttura AI

Groq LPU: l'inferenza a 500 token/secondo diventa virale

La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.
03

Perché conta per te

Il wafer-scale engine che porta l'inferenza di modelli 70B+ a velocità impensabili su GPU standard: rivela che il memory bandwidth è il collo di bottiglia reale e guida le decisioni su batch size e caching strategy.

27 agosto 2024 Medio Infrastruttura AI

Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
04

Perché conta per te

Meta standardizza le API per inference, RAG, safety e agenti in un unico stack distribuibile: il punto di riferimento per chi vuole un'architettura LLMOps riproducibile senza dipendere da un singolo provider.

25 settembre 2024 Medio Infrastruttura AI

Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.
05

Perché conta per te

Il record di throughput che ridefinisce cosa si può promettere in uno SLA di produzione: i numeri pubblicati diventano il nuovo metro con cui valutare ogni configurazione vLLM o Triton in deployment.

26 giugno 2025 Medio Infrastruttura AI

Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno

Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.
06

Perché conta per te

vLLM 0.7 separa prefill e decode su istanze distinte, abbattendo la latenza TTFT senza penalizzare il throughput: la release che rende disaggregato il deployment LLM un pattern operativo praticabile.

2 luglio 2025 Medio Infrastruttura AI

vLLM v0.7: chunked prefill default e v1 engine ridisegnato

vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.
07

Perché conta per te

Il breakthrough che porta modelli da 70B in precisione sub-4bit con perdita di qualità trascurabile: ridefinisce il minimo hardware necessario per il deployment on-premise e apre scenari edge impensabili fino a pochi mesi prima.

30 aprile 2026 Medio AI locale

Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM

Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.

DevOps / LLMOps: inferenza, stack e ottimizzazione in produzione

DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

Groq LPU: l'inferenza a 500 token/secondo diventa virale

Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno

vLLM v0.7: chunked prefill default e v1 engine ridisegnato

Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM