GLIDE: OpenAI passa dai modelli autoregressivi a diffusion guidata da CLIP

In una frase OpenAI pubblica GLIDE, modello text-to-image basato su diffusion con classifier-free guidance, fondamento tecnico di DALL·E 2 e dei modelli che seguiranno.

Verificato Fonte ufficiale

CondividiLinkedIn X

OpenAI cambia tecnica per generare immagini da testo. DALL·E 1, di gennaio 2021, generava immagini come fossero "token" — un pixel dopo l'altro, lento e a bassa risoluzione. Con GLIDE passa a un approccio diverso: diffusion model.

L'idea: partire da rumore casuale e "denoising" graduale verso un'immagine, guidato dal prompt testuale. Le immagini sono più fotorealistiche e si possono modificare (inpainting).

GLIDE non è un prodotto consumer ma un paper di ricerca. Diventerà la base tecnica di DALL·E 2 pochi mesi dopo. È anche la conferma che il futuro dei generatori di immagini sarà diffusion, una scelta che porterà a Stable Diffusion, Midjourney, Imagen, Sora.