In pratica
È la base di praticamente tutti gli LLM moderni. Per chi costruisce prodotti non serve implementarla da zero: si usano framework come PyTorch o si chiamano API. Capire che è parallelizzabile spiega perché servono GPU potenti per addestrarla.
Termini collegati
Visto in azione
19 voci che lo citano- AltoCrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa
- Mediobitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit
- Pietra miliareFLUX.1: il nuovo standard open per la generazione di immagini fotorealistiche
- AltoFP8 Training con NVIDIA Transformer Engine: dimezza la memoria mantenendo la qualità
- AltoStable Diffusion 3: architettura Diffusion Transformer e testo migliorato
- Pietra miliareSora: OpenAI mostra video AI di qualità cinematografica
- AltoRT-2: il robot che ragiona con un language model
- AltoFlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256
- AltoDeepMind RT-1: il primo Transformer addestrato su dati robotici reali
- Pietra miliareFlashAttention: attenzione IO-aware che rivoluziona il training dei transformer
- AltoGato: DeepMind prova un singolo agente per 600+ compiti
- Pietra miliareNVIDIA H100 e architettura Hopper: la GPU dei foundation model
- AltoSwitch Transformer: Google scala a 1,6T parametri con Mixture of Experts
- Pietra miliareVision Transformer (ViT): "An Image is Worth 16x16 Words"
- MedioLongformer: sliding-window attention per documenti lunghi
- AltoHuggingFace Transformers 3.0: i tokenizer Rust e l'hub modelli
- MedioImage GPT: pre-training generativo per le immagini
- Pietra miliareGPT-3: il paper che apre l'era delle scaling laws
- MedioReformer: il transformer che gestisce sequenze lunghissime