Salta al contenuto
AImpact
IT EN
Alto Generazione immagini & video · 1 min lettura

Imagen: Google entra nella generazione di immagini da testo

In una frase Google Research presenta Imagen, un modello di diffusione text-to-image che usa un encoder testuale T5 congelato e ottiene fedeltà fotorealistica superiore a DALL-E 2 sui benchmark.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Pochi mesi dopo DALL-E 2, anche Google mostra il suo generatore di immagini: scrivi una frase, lui disegna. Si chiama Imagen.

La cosa nuova è il modo in cui capisce il testo: usa un modello linguistico grande, già addestrato a leggere e scrivere, e lascia che sia lui a "spiegare" la frase al pittore. È un'idea semplice ma vincente.

Google però non lo apre al pubblico. Niente sito tipo DALL-E, niente prove. La paura di immagini false e contenuti problematici frena il rilascio. Risultato: tutti ne parlano, pochi lo usano, e nello stesso periodo Stable Diffusion e Midjourney prendono il pubblico.

Aziende

Google Research

Tool

Imagen

Tag

GoogleImagenText-to-ImageDiffusionT5

Fonti