Salta al contenuto
AImpact
IT EN
Pietra miliare AI multimodale · 1 min lettura

Vision Transformer (ViT): "An Image is Worth 16x16 Words"

In una frase Google Research presenta il Vision Transformer, che applica un transformer puro a patch di immagini come fossero token, dimostrando che con sufficiente pre-training supera le CNN su ImageNet e benchmark vision.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Per decenni il riconoscimento delle immagini è stato dominato da un tipo di rete neurale specializzata: le reti convoluzionali (CNN). Erano fatte apposta per immagini: guardavano piccole regioni alla volta, usavano filtri, ecc.

Google fa un esperimento spavaldo: prende il transformer — l'architettura nata per il testo — e gli dà direttamente le immagini in pasto, divise in tante piccole "tessere" di 16×16 pixel trattate come parole. Niente convoluzioni, niente meccanismi specifici per la visione.

Risultato: con abbastanza dati di pre-training, vince. La stessa architettura che muove GPT capisce anche immagini. Da qui in poi, tutta la visione moderna (DALL·E, Stable Diffusion, CLIP) usa transformer.

Aziende

Google

Tool

ViT, Vision Transformer

Tag

GoogleVision TransformerViTComputer VisionPatches

Fonti