Image GPT: pre-training generativo per le immagini

In una frase OpenAI presenta Image GPT (iGPT), un transformer che tratta i pixel come token e mostra che il pre-training generativo sequenziale di GPT funziona anche sulle immagini, raggiungendo prestazioni competitive su CIFAR-10.

Verificato Fonte ufficiale

CondividiLinkedIn X

I modelli di linguaggio come GPT funzionano leggendo le parole una alla volta e provando a indovinare la successiva. OpenAI prova a fare la stessa cosa con i pixel di un'immagine: scorrerli uno alla volta, predire il prossimo.

Sembra un'idea strana — i pixel non sono parole — ma il risultato è interessante. Il modello, senza che nessuno gli dica cosa siano un gatto o un'auto, impara da solo rappresentazioni utili per riconoscere oggetti, paragonabili a quelle ottenute con tecniche fatte apposta per la visione.

È un esperimento che dice qualcosa di importante: lo stesso "motore" che capisce il testo può capire le immagini, basta darglielo come sequenza.