Imagen: Google entra nella generazione di immagini da testo
In una frase Google Research presenta Imagen, un modello di diffusione text-to-image che usa un encoder testuale T5 congelato e ottiene fedeltà fotorealistica superiore a DALL-E 2 sui benchmark.
Pochi mesi dopo DALL-E 2, anche Google mostra il suo generatore di immagini: scrivi una frase, lui disegna. Si chiama Imagen.
La cosa nuova è il modo in cui capisce il testo: usa un modello linguistico grande, già addestrato a leggere e scrivere, e lascia che sia lui a "spiegare" la frase al pittore. È un'idea semplice ma vincente.
Google però non lo apre al pubblico. Niente sito tipo DALL-E, niente prove. La paura di immagini false e contenuti problematici frena il rilascio. Risultato: tutti ne parlano, pochi lo usano, e nello stesso periodo Stable Diffusion e Midjourney prendono il pubblico.
Aziende
Google Research
Tool
Imagen
Tag
Fonti