Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

ML engineer: training, ottimizzazione e infrastruttura

GPU, scaling laws, inferenza veloce e quantizzazione: il filo rosso tecnico.

Sei un ML engineer che vuole capire le scelte architetturali e infrastrutturali che hanno guidato la corsa ai modelli frontier. Questo percorso collega i paper fondamentali sullo scaling con le architetture hardware che li hanno resi possibili, e arriva alle soluzioni di inferenza ultra-veloce che oggi definiscono il costo di produzione di un LLM.

  1. 01

    Perché conta per te

    Le leggi di scaling di Chinchilla riscrivono il rapporto ottimale tra parametri e token di training: capirle è il prerequisito per qualsiasi decisione sensata su quanto addestrare un modello.

    Pietra miliare Modelli foundation

    Chinchilla: i modelli grandi erano sotto-addestrati

    DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.

  2. 02

    Perché conta per te

    L'architettura che ha reso possibile il training dei modelli frontier moderni: transformer engine, NVLink4 e HBM3 cambiano i budget di compute da questo punto in poi.

    Pietra miliare Infrastruttura AI

    NVIDIA H100 e architettura Hopper: la GPU dei foundation model

    Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.

  3. 03

    Perché conta per te

    Il paper che documenta il training di un modello da 540B su 6144 TPU in parallelo: il riferimento pratico per chiunque voglia capire il distributed training a scala.

    Medio Modelli foundation

    PaLM 540B: Google risponde a GPT-3 con il chain-of-thought

    Google presenta PaLM, un modello da 540 miliardi di parametri addestrato sul nuovo sistema Pathways. Mostra capacità emergenti di reasoning quando guidato con chain-of-thought.

  4. 04

    Perché conta per te

    Il linguaggio per scrivere kernel GPU custom senza CUDA nativo: fondamentale per ottimizzare attention, flash attention e qualsiasi operazione critica per la latenza.

    Medio Infrastruttura AI

    OpenAI Triton: scrivere kernel GPU in Python diventa praticabile

    OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.

  5. 05

    Perché conta per te

    Dimostra che l'architettura hardware dedicata all'inferenza può superare le GPU di due ordini di grandezza in throughput per token: cambia i termini del confronto make-vs-buy sull'inferenza.

    Alto Infrastruttura AI

    Groq LPU: l'inferenza a 500 token/secondo diventa virale

    La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.

  6. 06

    Perché conta per te

    Il wafer-scale chip che elimina i bottleneck di memoria per modelli grandi: rivela quanto il memory bandwidth, non i FLOP, sia il vero collo di bottiglia nell'inferenza LLM.

    Medio Infrastruttura AI

    Cerebras Inference: throughput inference da record con il chip wafer-scale WSE-3

    Cerebras lancia un servizio di inferenza LLM su wafer-scale WSE-3 con throughput dichiarato di ~1800 token/s su Llama 3.1 8B e ~450 token/s su Llama 3.1 70B, 10-20× più veloce di GPU H100.

  7. 07

    Perché conta per te

    L'architettura che porta FP4 e NVLink5 nel training e inferenza: il riferimento hardware per i cluster ML del 2025 e delle scelte di quantizzazione a bassa precisione.

    Pietra miliare Infrastruttura AI

    NVIDIA Blackwell: B200 e GB200 NVL72, l'era del rack-scale AI

    Al GTC 2024 NVIDIA annuncia Blackwell B200 (208B transistor, dual-die) e il sistema GB200 NVL72 (72 GPU + 36 Grace CPU in un rack). Inference 30x più veloce per LLM frontier.