Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

DevOps / LLMOps: inferenza, stack e ottimizzazione in produzione

vLLM, Ollama, quantizzazione e latency: il percorso operativo per chi fa girare LLM sul serio.

Sei un DevOps, MLOps o LLMOps engineer che deve mettere in produzione modelli linguistici con requisiti reali di latenza, throughput e costo. Questo percorso segue l'evoluzione dell'infrastruttura di inferenza: dai chip che ne definiscono i limiti fisici, agli stack open source che li sfruttano al massimo, fino alle tecniche di quantizzazione che abbattono i requisiti hardware senza sacrificare la qualità.

  1. 01

    Perché conta per te

    Il framework Microsoft che ha reso praticabile il training distribuito su centinaia di GPU con ZeRO stage 3: capire come partiziona optimizer state, gradienti e parametri è il fondamento per qualsiasi pipeline MLOps su cluster.

    Alto Infrastruttura AI

    DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

    Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.

  2. 02

    Perché conta per te

    La prima dimostrazione pubblica che un chip inference-only può superare le GPU di ordini di grandezza in tokens/s: cambia i benchmark di riferimento per la latency SLA e impone di rivalutare le scelte hardware in ogni stack LLMOps.

    Alto Infrastruttura AI

    Groq LPU: l'inferenza a 500 token/secondo diventa virale

    La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.

  3. 03

    Perché conta per te

    Il wafer-scale engine che porta l'inferenza di modelli 70B+ a velocità impensabili su GPU standard: rivela che il memory bandwidth è il collo di bottiglia reale e guida le decisioni su batch size e caching strategy.

    Medio Infrastruttura AI

    Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

    Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.

  4. 04

    Perché conta per te

    Meta standardizza le API per inference, RAG, safety e agenti in un unico stack distribuibile: il punto di riferimento per chi vuole un'architettura LLMOps riproducibile senza dipendere da un singolo provider.

    Medio Infrastruttura AI

    Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

    Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.

  5. 05

    Perché conta per te

    Il record di throughput che ridefinisce cosa si può promettere in uno SLA di produzione: i numeri pubblicati diventano il nuovo metro con cui valutare ogni configurazione vLLM o Triton in deployment.

    Medio Infrastruttura AI

    Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno

    Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.

  6. 06

    Perché conta per te

    vLLM 0.7 separa prefill e decode su istanze distinte, abbattendo la latenza TTFT senza penalizzare il throughput: la release che rende disaggregato il deployment LLM un pattern operativo praticabile.

    Medio Infrastruttura AI

    vLLM v0.7: chunked prefill default e v1 engine ridisegnato

    vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.

  7. 07

    Perché conta per te

    Il breakthrough che porta modelli da 70B in precisione sub-4bit con perdita di qualità trascurabile: ridefinisce il minimo hardware necessario per il deployment on-premise e apre scenari edge impensabili fino a pochi mesi prima.

    Medio AI locale

    Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM

    Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.