NVIDIA GTC 2026: keynote Huang e roadmap Rubin per il prossimo ciclo
Al GTC 2026 NVIDIA conferma la cadenza annuale: dettagli su Rubin (successore di Blackwell), nuove configurazioni rack-scale, software stack aggiornato per training e inference.
Categoria
57 voci
Al GTC 2026 NVIDIA conferma la cadenza annuale: dettagli su Rubin (successore di Blackwell), nuove configurazioni rack-scale, software stack aggiornato per training e inference.
vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.
Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.
NVIDIA NIM 1.0 impacchetta TensorRT-LLM e Triton Inference Server in microservizi Docker per singolo modello con API OpenAI-compatibile, health check e autoconfigurazione GPU, rendendo il deployment LLM semplice come avviare un container.
WebLLM abilita l'esecuzione di LLM come Llama 3 8B direttamente nel browser via WebGPU e WASM, compilando i modelli con Apache TVM per raggiungere 15 token/s in Chrome senza alcun server backend.
Review sistematica delle strategie di continuous batching per LLM serving: confronto Orca, vLLM, SGLang e TGI su scheduling, GPU utilization e metriche TTFT/TPOT. Stato dell'arte 2024-2025.
Meta rilascia torchao come libreria PyTorch-nativa per quantizzazione INT4/FP8/INT8 e sparsity, con 2x speedup su Llama-3 8B in INT4 senza richiedere kernel CUDA personalizzati, emergendo come layer standard di quantizzazione nell'ecosistema PyTorch.
UW + MIT rilasciano FlashInfer 0.2: libreria CUDA per attention in LLM serving con paged KV cache nativo, variable-length sequences, RoPE fusion e 1.5x speedup vs vLLM su prefill lungo su A100.
OpenAI, Oracle, SoftBank e MGX annunciano un piano di investimento da 500 miliardi di dollari in quattro anni per costruire infrastruttura AI negli USA. Primo sito a Abilene, Texas.
Il report tecnico di DeepSeek-V3 rivela Multi-head Latent Attention e una pipeline FP8 completa che permettono prestazioni di livello GPT-4o a $0.55/M token, con training di 671B parametri MoE su cluster H800 con vincoli di budget rigorosi.
La tecnica di disaggregazione prefill/decode separa le fasi di elaborazione del prompt e generazione token su GPU dedicate, riducendo il TTFT mantenendo alto throughput, adottata dai principali cloud provider.
Anthropic apre il Model Context Protocol (MCP), uno standard JSON-RPC che fa parlare gli assistenti AI con tool, file system, database e SaaS senza integrazioni ad-hoc per ogni modello.
Moonshot AI (Kimi) separa le fasi prefill (GPU compute-bound) e decode (GPU memory-bound) su pool di GPU dedicati con trasferimento KV cache, raggiungendo il 525% di throughput in più nei deployment di produzione.
Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.
Quantizzare il KV cache da FP16 a FP8 o INT8 riduce la memoria di serving del 50%+, permettendo contesti 2x più lunghi o il doppio degli utenti concorrenti per GPU, adottato da vLLM, TGI e TensorRT-LLM.
Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
bitsandbytes 0.43 aggiorna il supporto QLoRA con NF4 e FP4 data types, inference-time dequantizzazione ottimizzata su A100/H100, e integrazione migliorata con PEFT per fine-tuning efficiente di LLM a 4 bit.
Neural Magic rilascia LLM Compressor: libreria open source che unifica GPTQ, AWQ, SmoothQuant e SparseGPT in un singolo toolkit con integrazione vLLM nativa, semplificando il deployment di modelli compressi.
HuggingFace Accelerate 0.30 unifica FSDP e DeepSpeed in un wrapper configurabile via YAML senza modificare il codice di training, con integrazione nativa nel Trainer e supporto a strategie di parallelismo miste.
NVIDIA Transformer Engine porta il training in precisione FP8 (E4M3/E5M2) con scaling automatico per tensore, dimezzando la memoria rispetto a BF16 con meno dello 0.5% di perdita di qualità, rendendo fattibile addestrare modelli da 70B su metà hardware.
Tri Dao e NVIDIA pubblicano FlashAttention-3: ottimizzato per H100 Hopper con overlapping compute/memory tramite wgmma e TMA, supporto FP8 low-precision, 2.6x speedup su FA2 e 75% del picco H100.
Stanford e LMSYS rilasciano SGLang, un runtime per LLM che introduce RadixAttention per condividere il prefix caching tra richieste diverse, raggiungendo throughput 6.4x rispetto a vLLM su task con prefissi comuni.
La specifica GGUF (GGML Unified Format) diventa lo standard per distribuire modelli LLM quantizzati, sostituendo GGML con un formato estensibile che include metadati ricchi, supportato da llama.cpp, Ollama e LM Studio.
vLLM v0.3.3 introduce l'Automatic Prefix Caching che riutilizza il KV cache per prefissi comuni tra richieste diverse, eliminando quasi completamente il tempo di risposta iniziale per system prompt e documenti RAG già elaborati.
S-LoRA (UC Berkeley) e Punica (UW) abilitano il serving multi-tenant di centinaia di adapter LoRA da un singolo modello base con commutazione zero-copy e kernel CUDA dedicati, integrati in vLLM e SGLang.
Al GTC 2024 NVIDIA annuncia Blackwell B200 (208B transistor, dual-die) e il sistema GB200 NVL72 (72 GPU + 36 Grace CPU in un rack). Inference 30x più veloce per LLM frontier.
La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.
ROCm 6.0 porta supporto nativo a PyTorch 2.x, hipBLASLt, hipGRAPH e integrazione ufficiale vLLM su GPU AMD Instinct MI300X, permettendo per la prima volta training e serving LLM senza patch manuali.
Mozilla rilascia llamafile, un eseguibile single-file che combina llama.cpp con Cosmopolitan Libc per far girare LLM su Linux, Windows, Mac e BSD senza installazioni, direttamente da CPU o GPU.
Microsoft DeepSpeed team rilascia FastGen tramite MII: scheduling Dynamic SplitFuse per LLM serving raggiunge 2.3x throughput vs vLLM su carichi di chat production, ottimizzato per Azure H100.
NVIDIA open-source TensorRT-LLM, un framework per compilare e ottimizzare LLM per GPU NVIDIA con supporto FP8, INT4, sparse attention e tensor parallelism multi-GPU out of the box.
ExLlamaV2 introduce il formato EXL2 con bit-rate misti per layer (2-8 bit), offrendo throughput superiore a llama.cpp su GPU NVIDIA e permettendo di far girare modelli 70B su singola RTX 3090.
Cornell/UIUC introducono Medusa: N teste di decodifica aggiuntive sul modello principale predicono N token in avanti simultaneamente, 2.2x speedup senza necessità di un secondo modello draft.
Google annuncia TPU v5e, un chip AI cost-optimized con 4x meglio performance per dollaro rispetto a TPU v4 per l'inferenza, disponibile tramite Google Kubernetes Engine per workload containerizzati.
Tri Dao riscrive FlashAttention con 2x speedup su FA1: migliore parallelismo su seq-len, supporto head-dim fino a 256, query parallelism per MHA, MQA e GQA. Standard de facto per il training.
MIT Han Lab pubblica AWQ: quantizzazione 4-bit che preserva i pesi salientes identificati tramite analisi delle attivazioni, ottenendo migliore accuracy-throughput di GPTQ per deployment edge.
OpenAI introduce nell'API la 'function calling': il modello restituisce JSON strutturato conforme a uno schema, abilitando integrazioni affidabili con tool esterni senza prompt engineering fragile.
HuggingFace rilascia Text Generation Inference, un container Docker ottimizzato per servire LLM in produzione con continuous batching, tensor parallelism e Flash Attention 2 integrati.
AWS annuncia Bedrock, servizio managed che espone Claude (Anthropic), Jurassic-2 (AI21), Stable Diffusion e i propri Titan via una API unica. Risposta a Azure OpenAI.
PyTorch 2.0 introduce torch.compile basato su TorchDynamo e il backend Inductor, offrendo fino a 2x di speedup su transformer senza modifiche al codice, rendendo PyTorch competitivo con XLA/JAX in produzione.
Il team della UC Berkeley pubblica vLLM, libreria Python per inference LLM con PagedAttention che gestisce la KV cache come memoria virtuale OS, raggiungendo throughput 24x superiore alla baseline HuggingFace.
Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.
NVIDIA consolida Triton come piattaforma open source per servire modelli PyTorch, TensorFlow e ONNX in produzione, con dynamic batching, supporto multi-GPU e API gRPC/HTTP.
HuggingFace Accelerate offre una API unificata che permette di eseguire lo stesso codice di training su qualsiasi hardware senza modifiche, diventando la spina dorsale dei pipeline open LLM.
Frantar et al. (ETH Zurich) pubblicano GPTQ: quantizzazione 4-bit accurata senza fine-tuning significativo, prima tecnica a rendere pratica l'inferenza di modelli da 175B su hardware consumer.
Hugging Face lancia Inference Endpoints, servizio managed per deployare modelli del Hub su AWS, Azure o GCP con autoscaling, GPU on-demand e endpoint privati.
Tri Dao (Stanford) pubblica FlashAttention: implementazione IO-aware che evita di materializzare la matrice di attenzione in HBM, con 2-4x speedup e 10x meno memoria GPU.
Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.
Jeff Dean illustra Pathways, l'architettura unificata di Google per modelli sparsi multitask multimodali, fondamento dell'infrastruttura che farà nascere PaLM e Gemini.
Meta rilascia PyTorch 1.10 con CUDA Graphs integration, FX-based quantization, miglioramenti TorchScript, consolidando la leadership del framework per ricerca e produzione AI.
OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.
DeepMind pubblica codice e pesi di AlphaFold 2 su GitHub e, con EMBL-EBI, rilascia il database con la struttura predetta di 350.000 proteine umane e di altri organismi modello.
NVIDIA aggiunge pipeline scheduling interleaved e sequence parallelism a Megatron-LM, permettendo di addestrare MT-NLG da 530B parametri su 2240 GPU A100 con Microsoft.
Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.
William Falcon e team rilasciano PyTorch Lightning 1.0, un framework che separa la ricerca (model code) dall'ingegneria (training loop, distributed, checkpoint, logging) e diventa standard de facto per molti progetti open.
Pubblicando i risultati MLPerf Training 0.7, Google rivela TPU v4, un nuovo acceleratore custom per il deep learning, e dichiara di aver costruito il "supercomputer di training più veloce al mondo" con un pod di 4096 chip.
Al GTC 2020 Jensen Huang annuncia la GPU A100 basata sull'architettura Ampere: 54 miliardi di transistor, 40-80 GB HBM2e, TF32, sparsità strutturale 2:4 e supporto MIG.