Modelli Base Anche noto come: Architettura Transformer

Transformer

Architettura di rete neurale introdotta da Google nel 2017 che usa il meccanismo di attenzione per elaborare il testo in parallelo invece che parola per parola.

CondividiLinkedIn X

In pratica

È la base di praticamente tutti gli LLM moderni. Per chi costruisce prodotti non serve implementarla da zero: si usano framework come PyTorch o si chiamano API. Capire che è parallelizzabile spiega perché servono GPU potenti per addestrarla.

Termini collegati

Attention LLM Foundation model

Visto in azione

19 voci che lo citano

15 aprile 2025

CrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa

Alto
20 agosto 2024

bitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit

Medio
1 agosto 2024

FLUX.1: il nuovo standard open per la generazione di immagini fotorealistiche

Pietra miliare
5 giugno 2024

FP8 Training con NVIDIA Transformer Engine: dimezza la memoria mantenendo la qualità

Alto
5 marzo 2024

Stable Diffusion 3: architettura Diffusion Transformer e testo migliorato

Alto
15 febbraio 2024

Sora: OpenAI mostra video AI di qualità cinematografica

Pietra miliare
28 luglio 2023

RT-2: il robot che ragiona con un language model

Alto
28 luglio 2023

FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256

Alto
16 dicembre 2022

DeepMind RT-1: il primo Transformer addestrato su dati robotici reali

Alto
21 giugno 2022

FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer

Pietra miliare
12 maggio 2022

Gato: DeepMind prova un singolo agente per 600+ compiti

Alto
22 marzo 2022

NVIDIA H100 e architettura Hopper: la GPU dei foundation model

Pietra miliare
12 gennaio 2021

Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts

Alto
22 ottobre 2020

Vision Transformer (ViT): "An Image is Worth 16x16 Words"

Pietra miliare
22 luglio 2020

Longformer: sliding-window attention per documenti lunghi

Medio
9 luglio 2020

HuggingFace Transformers 3.0: i tokenizer Rust e l'hub modelli

Alto
17 giugno 2020

Image GPT: pre-training generativo per le immagini

Medio
28 maggio 2020

GPT-3: il paper che apre l'era delle scaling laws

Pietra miliare
13 gennaio 2020

Reformer: il transformer che gestisce sequenze lunghissime

Medio

← Tutti i termini