Percorso
DevOps / LLMOps: inferenza, stack e ottimizzazione in produzione
vLLM, Ollama, quantizzazione e latency: il percorso operativo per chi fa girare LLM sul serio.
Sei un DevOps, MLOps o LLMOps engineer che deve mettere in produzione modelli linguistici con requisiti reali di latenza, throughput e costo. Questo percorso segue l'evoluzione dell'infrastruttura di inferenza: dai chip che ne definiscono i limiti fisici, agli stack open source che li sfruttano al massimo, fino alle tecniche di quantizzazione che abbattono i requisiti hardware senza sacrificare la qualità.
- 01
Perché conta per te
Il framework Microsoft che ha reso praticabile il training distribuito su centinaia di GPU con ZeRO stage 3: capire come partiziona optimizer state, gradienti e parametri è il fondamento per qualsiasi pipeline MLOps su cluster.
Alto Infrastruttura AIDeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri
Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.
- 02
Perché conta per te
La prima dimostrazione pubblica che un chip inference-only può superare le GPU di ordini di grandezza in tokens/s: cambia i benchmark di riferimento per la latency SLA e impone di rivalutare le scelte hardware in ogni stack LLMOps.
Alto Infrastruttura AIGroq LPU: l'inferenza a 500 token/secondo diventa virale
La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.
- 03
Perché conta per te
Il wafer-scale engine che porta l'inferenza di modelli 70B+ a velocità impensabili su GPU standard: rivela che il memory bandwidth è il collo di bottiglia reale e guida le decisioni su batch size e caching strategy.
Medio Infrastruttura AICerebras Inference: throughput inference da record con il chip wafer-scale WSE-3
Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
- 04
Perché conta per te
Meta standardizza le API per inference, RAG, safety e agenti in un unico stack distribuibile: il punto di riferimento per chi vuole un'architettura LLMOps riproducibile senza dipendere da un singolo provider.
Medio Infrastruttura AILlama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM
Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.
- 05
Perché conta per te
Il record di throughput che ridefinisce cosa si può promettere in uno SLA di produzione: i numeri pubblicati diventano il nuovo metro con cui valutare ogni configurazione vLLM o Triton in deployment.
Medio Infrastruttura AICerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno
Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.
- 06
Perché conta per te
vLLM 0.7 separa prefill e decode su istanze distinte, abbattendo la latenza TTFT senza penalizzare il throughput: la release che rende disaggregato il deployment LLM un pattern operativo praticabile.
Medio Infrastruttura AIvLLM v0.7: chunked prefill default e v1 engine ridisegnato
vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.
- 07
Perché conta per te
Il breakthrough che porta modelli da 70B in precisione sub-4bit con perdita di qualità trascurabile: ridefinisce il minimo hardware necessario per il deployment on-premise e apre scenari edge impensabili fino a pochi mesi prima.
Medio AI localeQuantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.