Salta al contenuto
AImpact
IT EN
Modelli Base Anche noto come: Architettura Transformer

Transformer

Architettura di rete neurale introdotta da Google nel 2017 che usa il meccanismo di attenzione per elaborare il testo in parallelo invece che parola per parola.

CondividiLinkedInX

In pratica

È la base di praticamente tutti gli LLM moderni. Per chi costruisce prodotti non serve implementarla da zero: si usano framework come PyTorch o si chiamano API. Capire che è parallelizzabile spiega perché servono GPU potenti per addestrarla.

Termini collegati

Visto in azione

19 voci che lo citano
  1. CrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa
    Alto
  2. bitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit
    Medio
  3. FLUX.1: il nuovo standard open per la generazione di immagini fotorealistiche
    Pietra miliare
  4. FP8 Training con NVIDIA Transformer Engine: dimezza la memoria mantenendo la qualità
    Alto
  5. Stable Diffusion 3: architettura Diffusion Transformer e testo migliorato
    Alto
  6. Sora: OpenAI mostra video AI di qualità cinematografica
    Pietra miliare
  7. RT-2: il robot che ragiona con un language model
    Alto
  8. FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256
    Alto
  9. DeepMind RT-1: il primo Transformer addestrato su dati robotici reali
    Alto
  10. FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer
    Pietra miliare
  11. Gato: DeepMind prova un singolo agente per 600+ compiti
    Alto
  12. NVIDIA H100 e architettura Hopper: la GPU dei foundation model
    Pietra miliare
  13. Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts
    Alto
  14. Vision Transformer (ViT): "An Image is Worth 16x16 Words"
    Pietra miliare
  15. Longformer: sliding-window attention per documenti lunghi
    Medio
  16. HuggingFace Transformers 3.0: i tokenizer Rust e l'hub modelli
    Alto
  17. Image GPT: pre-training generativo per le immagini
    Medio
  18. GPT-3: il paper che apre l'era delle scaling laws
    Pietra miliare
  19. Reformer: il transformer che gestisce sequenze lunghissime
    Medio
← Tutti i termini