Vision Transformer (ViT): "An Image is Worth 16x16 Words"

In una frase Google Research presenta il Vision Transformer, che applica un transformer puro a patch di immagini come fossero token, dimostrando che con sufficiente pre-training supera le CNN su ImageNet e benchmark vision.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per decenni il riconoscimento delle immagini è stato dominato da un tipo di rete neurale specializzata: le reti convoluzionali (CNN). Erano fatte apposta per immagini: guardavano piccole regioni alla volta, usavano filtri, ecc.

Google fa un esperimento spavaldo: prende il transformer — l'architettura nata per il testo — e gli dà direttamente le immagini in pasto, divise in tante piccole "tessere" di 16×16 pixel trattate come parole. Niente convoluzioni, niente meccanismi specifici per la visione.

Risultato: con abbastanza dati di pre-training, vince. La stessa architettura che muove GPT capisce anche immagini. Da qui in poi, tutta la visione moderna (DALL·E, Stable Diffusion, CLIP) usa transformer.