◦

Percorso

ML engineer: training, ottimizzazione e infrastruttura

GPU, scaling laws, inferenza veloce e quantizzazione: il filo rosso tecnico.

Sei un ML engineer che vuole capire le scelte architetturali e infrastrutturali che hanno guidato la corsa ai modelli frontier. Questo percorso collega i paper fondamentali sullo scaling con le architetture hardware che li hanno resi possibili, e arriva alle soluzioni di inferenza ultra-veloce che oggi definiscono il costo di produzione di un LLM.

01

Perché conta per te

Le leggi di scaling di Chinchilla riscrivono il rapporto ottimale tra parametri e token di training: capirle è il prerequisito per qualsiasi decisione sensata su quanto addestrare un modello.

29 marzo 2022 Pietra miliare Modelli foundation

Chinchilla: i modelli grandi erano sotto-addestrati

DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.
02

Perché conta per te

L'architettura che ha reso possibile il training dei modelli frontier moderni: transformer engine, NVLink4 e HBM3 cambiano i budget di compute da questo punto in poi.

22 marzo 2022 Pietra miliare Infrastruttura AI

NVIDIA H100 e architettura Hopper: la GPU dei foundation model

Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.
03

Perché conta per te

Il paper che documenta il training di un modello da 540B su 6144 TPU in parallelo: il riferimento pratico per chiunque voglia capire il distributed training a scala.

5 aprile 2022 Medio Modelli foundation

PaLM 540B: Google risponde a GPT-3 con il chain-of-thought

Google presenta PaLM, un modello da 540 miliardi di parametri addestrato sul nuovo sistema Pathways. Mostra capacità emergenti di reasoning quando guidato con chain-of-thought.
04

Perché conta per te

Il linguaggio per scrivere kernel GPU custom senza CUDA nativo: fondamentale per ottimizzare attention, flash attention e qualsiasi operazione critica per la latenza.

28 luglio 2021 Medio Infrastruttura AI

OpenAI Triton: scrivere kernel GPU in Python diventa praticabile

OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.
05

Perché conta per te

Dimostra che l'architettura hardware dedicata all'inferenza può superare le GPU di due ordini di grandezza in throughput per token: cambia i termini del confronto make-vs-buy sull'inferenza.

22 febbraio 2024 Alto Infrastruttura AI

Groq LPU: l'inferenza a 500 token/secondo diventa virale

La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.
06

Perché conta per te

Il wafer-scale chip che elimina i bottleneck di memoria per modelli grandi: rivela quanto il memory bandwidth, non i FLOP, sia il vero collo di bottiglia nell'inferenza LLM.

27 agosto 2024 Medio Infrastruttura AI

Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
07

Perché conta per te

L'architettura che porta FP4 e NVLink5 nel training e inferenza: il riferimento hardware per i cluster ML del 2025 e delle scelte di quantizzazione a bassa precisione.

18 marzo 2024 Pietra miliare Infrastruttura AI

NVIDIA Blackwell: B200 e GB200 NVL72, l'era del rack-scale AI

Al GTC 2024 NVIDIA annuncia Blackwell B200 (208B transistor, dual-die) e il sistema GB200 NVL72 (72 GPU + 36 Grace CPU in un rack). Inference 30x più veloce per LLM frontier.