Percorso
ML engineer: training, ottimizzazione e infrastruttura
GPU, scaling laws, inferenza veloce e quantizzazione: il filo rosso tecnico.
Sei un ML engineer che vuole capire le scelte architetturali e infrastrutturali che hanno guidato la corsa ai modelli frontier. Questo percorso collega i paper fondamentali sullo scaling con le architetture hardware che li hanno resi possibili, e arriva alle soluzioni di inferenza ultra-veloce che oggi definiscono il costo di produzione di un LLM.
- 01
Perché conta per te
Le leggi di scaling di Chinchilla riscrivono il rapporto ottimale tra parametri e token di training: capirle è il prerequisito per qualsiasi decisione sensata su quanto addestrare un modello.
Pietra miliare Modelli foundationChinchilla: i modelli grandi erano sotto-addestrati
DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.
- 02
Perché conta per te
L'architettura che ha reso possibile il training dei modelli frontier moderni: transformer engine, NVLink4 e HBM3 cambiano i budget di compute da questo punto in poi.
Pietra miliare Infrastruttura AINVIDIA H100 e architettura Hopper: la GPU dei foundation model
Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.
- 03
Perché conta per te
Il paper che documenta il training di un modello da 540B su 6144 TPU in parallelo: il riferimento pratico per chiunque voglia capire il distributed training a scala.
Medio Modelli foundationPaLM 540B: Google risponde a GPT-3 con il chain-of-thought
Google presenta PaLM, un modello da 540 miliardi di parametri addestrato sul nuovo sistema Pathways. Mostra capacità emergenti di reasoning quando guidato con chain-of-thought.
- 04
Perché conta per te
Il linguaggio per scrivere kernel GPU custom senza CUDA nativo: fondamentale per ottimizzare attention, flash attention e qualsiasi operazione critica per la latenza.
Medio Infrastruttura AIOpenAI Triton: scrivere kernel GPU in Python diventa praticabile
OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.
- 05
Perché conta per te
Dimostra che l'architettura hardware dedicata all'inferenza può superare le GPU di due ordini di grandezza in throughput per token: cambia i termini del confronto make-vs-buy sull'inferenza.
Alto Infrastruttura AIGroq LPU: l'inferenza a 500 token/secondo diventa virale
La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.
- 06
Perché conta per te
Il wafer-scale chip che elimina i bottleneck di memoria per modelli grandi: rivela quanto il memory bandwidth, non i FLOP, sia il vero collo di bottiglia nell'inferenza LLM.
Medio Infrastruttura AICerebras Inference: throughput inference da record con il chip wafer-scale WSE-3
Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.
- 07
Perché conta per te
L'architettura che porta FP4 e NVLink5 nel training e inferenza: il riferimento hardware per i cluster ML del 2025 e delle scelte di quantizzazione a bassa precisione.
Pietra miliare Infrastruttura AINVIDIA Blackwell: B200 e GB200 NVL72, l'era del rack-scale AI
Al GTC 2024 NVIDIA annuncia Blackwell B200 (208B transistor, dual-die) e il sistema GB200 NVL72 (72 GPU + 36 Grace CPU in un rack). Inference 30x più veloce per LLM frontier.