Categoria

Infrastruttura AI

64 voci

20 giugno 2026 Alto

NVIDIA lancia GB300 Blackwell Ultra: 288 GB HBM3e e NVLink 5 a 1,8 TB/s

NVIDIA avvia le spedizioni della GPU GB300 Blackwell Ultra con 288 GB di memoria HBM3e per chip, NVLink 5 a 1,8 TB/s e prestazioni FP8 raddoppiate rispetto alla B200, trasformando i costi di inferenza per i modelli frontier.

Infrastruttura AI GPUNVIDIABlackwell Ultra

6 maggio 2026 Alto

AMD MI350 Instinct: 288GB HBM3e e 1.5 PFLOPS FP8 sfidano NVIDIA nei datacenter

AMD lancia la GPU MI350 Instinct con 288GB di memoria HBM3e, il doppio della banda rispetto a MI300X e 1.5 PFLOPS in FP8, accompagnata da ROCm 7.0 con compatibilita PyTorch nettamente migliorata.

Infrastruttura AI GPUAMDHBM3e

17 aprile 2026 Medio

Cerebras lancia CS-3: 4 trilioni di transistor e Llama 4 Maverick a 1500 token/sec su singolo chip

Cerebras presenta il CS-3, il motore a scala wafer di terza generazione con 44 GB di SRAM on-chip, capace di eseguire Llama 4 Maverick a 1500 token al secondo su un singolo chip. Il primo deployment commerciale avviene nel cloud AI degli Emirati Arabi Uniti.

Infrastruttura AI CerebrasWafer-ScaleInference

12 marzo 2026 Medio

Groq lancia GroqCloud 2.0: LPU Gen3, 2000 token/sec e data center europeo a Francoforte

Groq rilascia GroqCloud 2.0 con chip LPU di terza generazione, raggiungendo 2000 token al secondo su Llama 4.1 Maverick, e apre un data center a Francoforte per servire il mercato europeo a costi competitivi.

Infrastruttura AI GroqLPUInference

11 marzo 2026 Alto

NVIDIA GTC 2026: keynote Huang e roadmap Rubin per il prossimo ciclo

Al GTC 2026 NVIDIA conferma la cadenza annuale: dettagli su Rubin (successore di Blackwell), nuove configurazioni rack-scale, software stack aggiornato per training e inference.

Infrastruttura AI NVIDIAGTCRubin

22 settembre 2025 Alto

GPU NVIDIA H200 e B200 Blackwell raggiungono ampia disponibilità cloud

Tutti e tre i cloud principali offrono ora istanze Blackwell; i costi di training calano del 40% rispetto a H100 e il throughput di inferenza raddoppia su B100.

Infrastruttura AI

25 agosto 2025 Alto

NVIDIA NIM Microservices: disponibilità generale

NIM permette di distribuire 200+ modelli AI come REST API pronte alla produzione con un singolo comando Docker, ottimizzate CUDA out of the box.

Infrastruttura AI

11 agosto 2025 Medio

Anthropic estende il prompt caching di Claude a 1 ora

Il caching dei prompt di Claude ora dura un'ora intera con supporto multi-turno, riducendo i costi fino al 90% sui contesti grandi ripetuti.

Infrastruttura AI

2 luglio 2025 Medio

vLLM v0.7: chunked prefill default e v1 engine ridisegnato

vLLM rilascia v0.7 con chunked prefill abilitato di default, nuovo engine 'V1' con scheduler riscritto, e supporto avanzato a MoE (DeepSeek V3/R1) e modelli multimodali. Throughput +1.5-2× su molti workload.

Infrastruttura AI vLLMInferenceChunked Prefill

26 giugno 2025 Medio

Cerebras tocca 2.500+ token/sec su Llama: record inferenza dell'anno

Cerebras Systems pubblica numeri di inferenza che battono GPU Nvidia di un ordine di grandezza: 2.500+ token/sec su Llama 4 Maverick e Scout grazie al wafer-scale WSE-3. ASIC custom torna competitivo.

Infrastruttura AI CerebrasInferenceWafer Scale

1 maggio 2025 Alto

NVIDIA NIM 1.0: inferenza LLM containerizzata con API OpenAI-compatibile

NVIDIA NIM 1.0 impacchetta TensorRT-LLM e Triton Inference Server in microservizi Docker per singolo modello con API OpenAI-compatibile, health check e autoconfigurazione GPU, rendendo il deployment LLM semplice come avviare un container.

Infrastruttura AI NVIDIA NIMcontainerized inferenceTensorRT-LLM

14 aprile 2025 Medio

WebLLM e LLM in WASM: inferenza LLM nel browser tramite WebGPU senza server

WebLLM abilita l'esecuzione di LLM come Llama 3 8B direttamente nel browser via WebGPU e WASM, compilando i modelli con Apache TVM per raggiungere 15 token/s in Chrome senza alcun server backend.

Infrastruttura AI WebLLMWebAssemblyWebGPU

8 aprile 2025 Medio

Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

Review sistematica delle strategie di continuous batching per LLM serving: confronto Orca, vLLM, SGLang e TGI su scheduling, GPU utilization e metriche TTFT/TPOT. Stato dell'arte 2024-2025.

Infrastruttura AI Continuous BatchingLLM ServingOrca

1 marzo 2025 Medio

torchao: quantizzazione e sparsity nativi PyTorch senza CUDA custom

Meta rilascia torchao come libreria PyTorch-nativa per quantizzazione INT4/FP8/INT8 e sparsity, con 2x speedup su Llama-3 8B in INT4 senza richiedere kernel CUDA personalizzati, emergendo come layer standard di quantizzazione nell'ecosistema PyTorch.

Infrastruttura AI torchaoquantizationINT4

22 gennaio 2025 Medio

FlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion

UW + MIT rilasciano FlashInfer 0.2: libreria CUDA per attention in LLM serving con paged KV cache nativo, variable-length sequences, RoPE fusion e 1.5x speedup vs vLLM su prefill lungo su A100.

Infrastruttura AI FlashInferAttentionKV Cache

21 gennaio 2025 Alto

Stargate Project: l'infrastruttura AI da 500 miliardi annunciata alla Casa Bianca

OpenAI, Oracle, SoftBank e MGX annunciano un piano di investimento da 500 miliardi di dollari in quattro anni per costruire infrastruttura AI negli USA. Primo sito a Abilene, Texas.

Infrastruttura AI StargateOpenAIOracle

10 gennaio 2025 Alto

DeepSeek-V3: qualità GPT-4o a $0.55/M token tramite MLA e pipeline FP8

Il report tecnico di DeepSeek-V3 rivela Multi-head Latent Attention e una pipeline FP8 completa che permettono prestazioni di livello GPT-4o a $0.55/M token, con training di 671B parametri MoE su cluster H800 con vincoli di budget rigorosi.

Infrastruttura AI DeepSeek V3MLAFP8

8 gennaio 2025 Alto

Disaggregazione prefill/decode: GPU separate per TTFT basso e alto throughput

La tecnica di disaggregazione prefill/decode separa le fasi di elaborazione del prompt e generazione token su GPU dedicate, riducendo il TTFT mantenendo alto throughput, adottata dai principali cloud provider.

Infrastruttura AI PrefillDecodeDisaggregazione

25 novembre 2024 Alto ★ Sul mio lavoro

Model Context Protocol: lo standard aperto per connettere LLM e dati

Anthropic apre il Model Context Protocol (MCP), uno standard JSON-RPC che fa parlare gli assistenti AI con tool, file system, database e SaaS senza integrazioni ad-hoc per ogni modello.

Infrastruttura AI AnthropicMCPModel Context Protocol

5 novembre 2024 Alto

Mooncake: inferenza disaggregata prefill-decode per il 525% in più di throughput

Moonshot AI (Kimi) separa le fasi prefill (GPU compute-bound) e decode (GPU memory-bound) su pool di GPU dedicati con trasferimento KV cache, raggiungendo il 525% di throughput in più nei deployment di produzione.

Infrastruttura AI Mooncakedisaggregated inferenceprefill-decode

25 settembre 2024 Medio

Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.

Infrastruttura AI MetaLlama StackOpen Source

10 settembre 2024 Alto

KV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU

Quantizzare il KV cache da FP16 a FP8 o INT8 riduce la memoria di serving del 50%+, permettendo contesti 2x più lunghi o il doppio degli utenti concorrenti per GPU, adottato da vLLM, TGI e TensorRT-LLM.

Infrastruttura AI KV cache quantizationFP8INT8

27 agosto 2024 Medio

Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.

Infrastruttura AI CerebrasWSE-3Inference

20 agosto 2024 Medio

bitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit

bitsandbytes 0.43 aggiorna il supporto QLoRA con NF4 e FP4 data types, inference-time dequantizzazione ottimizzata su A100/H100, e integrazione migliorata con PEFT per fine-tuning efficiente di LLM a 4 bit.

Infrastruttura AI bitsandbytesQLoRAFine-tuning

5 agosto 2024 Medio

LLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa

Neural Magic rilascia LLM Compressor: libreria open source che unifica GPTQ, AWQ, SmoothQuant e SparseGPT in un singolo toolkit con integrazione vLLM nativa, semplificando il deployment di modelli compressi.

Infrastruttura AI LLM CompressorNeural MagicQuantizzazione

8 luglio 2024 Medio

HuggingFace Accelerate 0.30: FSDP e DeepSpeed senza codice aggiuntivo

HuggingFace Accelerate 0.30 unifica FSDP e DeepSpeed in un wrapper configurabile via YAML senza modificare il codice di training, con integrazione nativa nel Trainer e supporto a strategie di parallelismo miste.

Infrastruttura AI HuggingFaceAccelerateFSDP

5 giugno 2024 Alto

FP8 Training con NVIDIA Transformer Engine: dimezza la memoria mantenendo la qualità

NVIDIA Transformer Engine porta il training in precisione FP8 (E4M3/E5M2) con scaling automatico per tensore, dimezzando la memoria rispetto a BF16 con meno dello 0.5% di perdita di qualità, rendendo fattibile addestrare modelli da 70B su metà hardware.

Infrastruttura AI FP8Transformer EngineNVIDIA

18 maggio 2024 Alto

FlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8

Tri Dao e NVIDIA pubblicano FlashAttention-3: ottimizzato per H100 Hopper con overlapping compute/memory tramite wgmma e TMA, supporto FP8 low-precision, 2.6x speedup su FA2 e 75% del picco H100.

Infrastruttura AI FlashAttention-3H100Hopper

2 maggio 2024 Medio

SGLang: throughput LLM 6.4x con RadixAttention e prefix caching condiviso

Stanford e LMSYS rilasciano SGLang, un runtime per LLM che introduce RadixAttention per condividere il prefix caching tra richieste diverse, raggiungendo throughput 6.4x rispetto a vLLM su task con prefissi comuni.

Infrastruttura AI SGLangStanfordRadixAttention

25 marzo 2024 Medio

Specifica GGUF: il formato standard per modelli LLM quantizzati locali

La specifica GGUF (GGML Unified Format) diventa lo standard per distribuire modelli LLM quantizzati, sostituendo GGML con un formato estensibile che include metadati ricchi, supportato da llama.cpp, Ollama e LM Studio.

Infrastruttura AI GGUFGGMLQuantizzazione

20 marzo 2024 Alto

Automatic Prefix Caching in vLLM: KV cache condiviso tra richieste per TTFT quasi zero

vLLM v0.3.3 introduce l'Automatic Prefix Caching che riutilizza il KV cache per prefissi comuni tra richieste diverse, eliminando quasi completamente il tempo di risposta iniziale per system prompt e documenti RAG già elaborati.

Infrastruttura AI prefix cachingKV cachevLLM

18 marzo 2024 Alto

S-LoRA e Punica: serving di centinaia di fine-tuning LoRA da un singolo modello base

S-LoRA (UC Berkeley) e Punica (UW) abilitano il serving multi-tenant di centinaia di adapter LoRA da un singolo modello base con commutazione zero-copy e kernel CUDA dedicati, integrati in vLLM e SGLang.

Infrastruttura AI LoRAS-LoRAPunica

18 marzo 2024 Pietra miliare

NVIDIA Blackwell: B200 e GB200 NVL72, l'era del rack-scale AI

Al GTC 2024 NVIDIA annuncia Blackwell B200 (208B transistor, dual-die) e il sistema GB200 NVL72 (72 GPU + 36 Grace CPU in un rack). Inference 30x più veloce per LLM frontier.

Infrastruttura AI NVIDIABlackwellB200

22 febbraio 2024 Alto

Groq LPU: l'inferenza a 500 token/secondo diventa virale

La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.

Infrastruttura AI GroqLPUInference

5 febbraio 2024 Alto

AMD ROCm 6.0: supporto LLM production-grade e rottura del monopolio NVIDIA

ROCm 6.0 porta supporto nativo a PyTorch 2.x, hipBLASLt, hipGRAPH e integrazione ufficiale vLLM su GPU AMD Instinct MI300X, permettendo per la prima volta training e serving LLM senza patch manuali.

Infrastruttura AI ROCm 6AMDMI300X

31 gennaio 2024 Medio

llamafile Mozilla: LLM in un singolo eseguibile portatile su qualsiasi OS

Mozilla rilascia llamafile, un eseguibile single-file che combina llama.cpp con Cosmopolitan Libc per far girare LLM su Linux, Windows, Mac e BSD senza installazioni, direttamente da CPU o GPU.

Infrastruttura AI llamafileMozillaLLM

8 gennaio 2024 Medio

DeepSpeed-FastGen: Dynamic SplitFuse scheduling per 2.3x throughput su vLLM in produzione

Microsoft DeepSpeed team rilascia FastGen tramite MII: scheduling Dynamic SplitFuse per LLM serving raggiunge 2.3x throughput vs vLLM su carichi di chat production, ottimizzato per Azure H100.

Infrastruttura AI DeepSpeedFastGenMII

27 settembre 2023 Alto

NVIDIA TensorRT-LLM: compilazione automatica di LLM per GPU con FP8 e multi-GPU

NVIDIA open-source TensorRT-LLM, un framework per compilare e ottimizzare LLM per GPU NVIDIA con supporto FP8, INT4, sparse attention e tensor parallelism multi-GPU out of the box.

Infrastruttura AI NVIDIATensorRT-LLMFP8

15 settembre 2023 Medio

ExLlamaV2: inferenza LLM quantizzata ad alta velocità su GPU consumer

ExLlamaV2 introduce il formato EXL2 con bit-rate misti per layer (2-8 bit), offrendo throughput superiore a llama.cpp su GPU NVIDIA e permettendo di far girare modelli 70B su singola RTX 3090.

Infrastruttura AI ExLlamaV2EXL2Quantizzazione

14 settembre 2023 Alto

Medusa: speculative decoding multi-head senza draft model separato, 2.2x speedup

Cornell/UIUC introducono Medusa: N teste di decodifica aggiuntive sul modello principale predicono N token in avanti simultaneamente, 2.2x speedup senza necessità di un secondo modello draft.

Infrastruttura AI MedusaSpeculative DecodingMulti-Head

7 agosto 2023 Medio

Google TPU v5e: chip AI ottimizzato per il costo dell'inferenza enterprise

Google annuncia TPU v5e, un chip AI cost-optimized con 4x meglio performance per dollaro rispetto a TPU v4 per l'inferenza, disponibile tramite Google Kubernetes Engine per workload containerizzati.

Infrastruttura AI TPU v5eGoogleinference

28 luglio 2023 Alto

FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256

Tri Dao riscrive FlashAttention con 2x speedup su FA1: migliore parallelismo su seq-len, supporto head-dim fino a 256, query parallelism per MHA, MQA e GQA. Standard de facto per il training.

Infrastruttura AI FlashAttention-2AttentionTransformer

22 giugno 2023 Alto

AWQ: quantizzazione 4-bit activation-aware per deployment edge con accuracy superiore a GPTQ

MIT Han Lab pubblica AWQ: quantizzazione 4-bit che preserva i pesi salientes identificati tramite analisi delle attivazioni, ottenendo migliore accuracy-throughput di GPTQ per deployment edge.

Infrastruttura AI AWQQuantizzazione4-bit

13 giugno 2023 Alto

Function calling: GPT impara a parlare in JSON

OpenAI introduce nell'API la 'function calling': il modello restituisce JSON strutturato conforme a uno schema, abilitando integrazioni affidabili con tool esterni senza prompt engineering fragile.

Infrastruttura AI OpenAIFunction CallingTool Use

6 giugno 2023 Alto

HuggingFace TGI: container Docker production-ready per LLM serving con continuous batching

HuggingFace rilascia Text Generation Inference, un container Docker ottimizzato per servire LLM in produzione con continuous batching, tensor parallelism e Flash Attention 2 integrati.

Infrastruttura AI HuggingFaceTGILLM Serving

13 aprile 2023 Alto

AWS Bedrock: AI managed multi-modello su cloud Amazon

AWS annuncia Bedrock, servizio managed che espone Claude (Anthropic), Jurassic-2 (AI21), Stable Diffusion e i propri Titan via una API unica. Risposta a Azure OpenAI.

Infrastruttura AI AWSBedrockmanaged AI

15 marzo 2023 Alto

PyTorch 2.0 e torch.compile: compilazione del grafo senza riscrivere il codice

PyTorch 2.0 introduce torch.compile basato su TorchDynamo e il backend Inductor, offrendo fino a 2x di speedup su transformer senza modifiche al codice, rendendo PyTorch competitivo con XLA/JAX in produzione.

Infrastruttura AI PyTorch 2.0torch.compileTorchDynamo

9 febbraio 2023 Alto

vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley

Il team della UC Berkeley pubblica vLLM, libreria Python per inference LLM con PagedAttention che gestisce la KV cache come memoria virtuale OS, raggiungendo throughput 24x superiore alla baseline HuggingFace.

Infrastruttura AI vLLMBerkeleyPagedAttention

20 gennaio 2023 Alto

Speculative Decoding: 2-3x speedup per l'inferenza LLM senza modificare l'output

Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.

Infrastruttura AI Speculative DecodingInferenceAutoregressive

9 novembre 2022 Alto

NVIDIA Triton Inference Server 2.x: lo standard de facto per l'inference in produzione

NVIDIA consolida Triton come piattaforma open source per servire modelli PyTorch, TensorFlow e ONNX in produzione, con dynamic batching, supporto multi-GPU e API gRPC/HTTP.

Infrastruttura AI NVIDIATritonInference Server

1 novembre 2022 Medio

HuggingFace Accelerate: un solo script Python per CPU, GPU, TPU e mixed precision

HuggingFace Accelerate offre una API unificata che permette di eseguire lo stesso codice di training su qualsiasi hardware senza modifiche, diventando la spina dorsale dei pipeline open LLM.

Infrastruttura AI AccelerateHuggingFacemulti-GPU

12 ottobre 2022 Alto

GPTQ: quantizzazione 4-bit post-training che rende pratica l'inferenza di modelli GPT-scale

Frantar et al. (ETH Zurich) pubblicano GPTQ: quantizzazione 4-bit accurata senza fine-tuning significativo, prima tecnica a rendere pratica l'inferenza di modelli da 175B su hardware consumer.

Infrastruttura AI GPTQQuantizzazione4-bit

27 settembre 2022 Medio

Hugging Face Inference Endpoints: deploy LLM in due click

Hugging Face lancia Inference Endpoints, servizio managed per deployare modelli del Hub su AWS, Azure o GCP con autoscaling, GPU on-demand e endpoint privati.

Infrastruttura AI Hugging FaceInference EndpointsDeployment

21 giugno 2022 Pietra miliare

FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer

Tri Dao (Stanford) pubblica FlashAttention: implementazione IO-aware che evita di materializzare la matrice di attenzione in HBM, con 2-4x speedup e 10x meno memoria GPU.

Infrastruttura AI FlashAttentionAttentionTransformer

22 marzo 2022 Pietra miliare

NVIDIA H100 e architettura Hopper: la GPU dei foundation model

Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.

Infrastruttura AI NVIDIAH100Hopper

28 ottobre 2021 Medio

Pathways: Google delinea l'architettura post-Transformer

Jeff Dean illustra Pathways, l'architettura unificata di Google per modelli sparsi multitask multimodali, fondamento dell'infrastruttura che farà nascere PaLM e Gemini.

Infrastruttura AI GooglePathwaysMultitask

21 ottobre 2021 Medio

PyTorch 1.10: CUDA Graphs, FX e maturazione del framework dominante

Meta rilascia PyTorch 1.10 con CUDA Graphs integration, FX-based quantization, miglioramenti TorchScript, consolidando la leadership del framework per ricerca e produzione AI.

Infrastruttura AI PyTorchFrameworkCUDA Graphs

28 luglio 2021 Medio

OpenAI Triton: scrivere kernel GPU in Python diventa praticabile

OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.

Infrastruttura AI OpenAITritonGPU

15 luglio 2021 Alto

AlphaFold 2: codice e database aperti, la biologia accelera

DeepMind pubblica codice e pesi di AlphaFold 2 su GitHub e, con EMBL-EBI, rilascia il database con la struttura predetta di 350.000 proteine umane e di altri organismi modello.

Infrastruttura AI DeepMindAlphaFoldProtein Folding

12 luglio 2021 Alto

Megatron-LM v2: parallelismo 3D per modelli da 530 miliardi di parametri

NVIDIA aggiunge pipeline scheduling interleaved e sequence parallelism a Megatron-LM, permettendo di addestrare MT-NLG da 530B parametri su 2240 GPU A100 con Microsoft.

Infrastruttura AI Megatron-LM3D parallelismpipeline parallelism

9 settembre 2020 Alto

DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.

Infrastruttura AI MicrosoftDeepSpeedZeRO-3

4 agosto 2020 Medio

PyTorch Lightning 1.0: il training loop diventa boilerplate-free

William Falcon e team rilasciano PyTorch Lightning 1.0, un framework che separa la ricerca (model code) dall'ingegneria (training loop, distributed, checkpoint, logging) e diventa standard de facto per molti progetti open.

Infrastruttura AI PyTorch LightningOpen SourceTraining Loop

29 luglio 2020 Medio

Google annuncia TPU v4 con record MLPerf 0.7

Pubblicando i risultati MLPerf Training 0.7, Google rivela TPU v4, un nuovo acceleratore custom per il deep learning, e dichiara di aver costruito il "supercomputer di training più veloce al mondo" con un pod di 4096 chip.

Infrastruttura AI GoogleTPU v4Pod

14 maggio 2020 Pietra miliare

NVIDIA A100: l'architettura Ampere e la GPU che addestra GPT-3

Al GTC 2020 Jensen Huang annuncia la GPU A100 basata sull'architettura Ampere: 54 miliardi di transistor, 40-80 GB HBM2e, TF32, sparsità strutturale 2:4 e supporto MIG.

Infrastruttura AI NVIDIAA100Ampere