DALL-E 2 — Image Generation Goes Mainstream

Cos'è: DALL-E 2 è il modello di generazione di immagini da testo sviluppato da OpenAI, annunciato in beta privata nell'aprile 2022 e aperto al pubblico nel luglio dello stesso anno. Ha rappresentato il primo momento in cui milioni di persone hanno sperimentato direttamente la capacità dell'AI di produrre immagini fotorealistiche partendo da una semplice descrizione testuale.

Dall'architettura VQVAE ai Diffusion Model

Il DALL-E originale (gennaio 2021) usava una tecnica basata su VQVAE (Vector Quantized Variational Autoencoder) combinata con un transformer GPT-3: le immagini venivano codificate come sequenze di token discreti e generate autoregressivamente, come parole in una frase. I risultati erano impressionanti per l'epoca, ma la risoluzione era limitata e le immagini spesso presentavano artefatti visibili.

DALL-E 2 cambia radicalmente approccio adottando un diffusion model: il processo generativo parte da rumore casuale e, iterazione dopo iterazione, raffina l'immagine aggiungendo struttura semantica e dettagli visivi guidati dalla descrizione testuale. Questo approccio, ispirato ai lavori di Ho et al. (DDPM, 2020), produce immagini con una qualità visiva notevolmente superiore e una risoluzione quattro volte maggiore rispetto al predecessore.

Il sistema si articola in due componenti principali: CLIP (Contrastive Language-Image Pre-training), che crea uno spazio embedding condiviso tra testo e immagini, e un diffusion decoder che genera l'immagine a partire dall'embedding testuale. Questa architettura permette non solo la generazione da testo, ma anche la manipolazione di immagini esistenti.

Timeline: dalla beta chiusa all'apertura pubblica

Aprile 2022: OpenAI annuncia DALL-E 2 con una beta privata accessibile su invito. La lista d'attesa raccoglie centinaia di migliaia di iscrizioni in poche settimane. I risultati condivisi dagli utenti della beta circolano rapidamente sui social media, creando un effetto di stupore collettivo difficilmente paragonabile ad annunci precedenti nel settore AI.

Luglio 2022: DALL-E 2 viene aperto al pubblico, con un sistema a crediti mensili inclusi nel piano gratuito e la possibilità di acquistare crediti aggiuntivi. Per la prima volta, chiunque può generare immagini di qualità professionale senza competenze tecniche.

Agosto–settembre 2022: Il panorama si arricchisce rapidamente. Stable Diffusion (Stability AI) viene rilasciato come open source, permettendo a chiunque di eseguire un modello di generazione immagini sul proprio computer. Midjourney apre la beta pubblica attraverso Discord, costruendo rapidamente una comunità di milioni di utenti attratti dalla sua estetica distintiva.

Inpainting e Outpainting: oltre la generazione semplice

DALL-E 2 introduce due funzionalità che vanno oltre la semplice generazione da testo e che diventeranno standard del settore:

Inpainting: permette di selezionare un'area di un'immagine esistente e sostituirla con contenuto generato dall'AI, coerente con il contesto circostante. Utile per rimuovere oggetti, cambiare elementi specifici o completare immagini parziali.
Outpainting: estende un'immagine oltre i suoi bordi originali, generando contenuto visivamente coerente che "continua" la scena. OpenAI ha dimostrato questa funzione estendendo opere d'arte famose — come il "Girl with a Pearl Earring" di Vermeer — rivelando un contesto immaginato attorno alla figura originale.

Queste capacità hanno immediato impatto pratico per designer, fotografi e creativi, che iniziano a integrare DALL-E 2 nel proprio workflow professionale.

La controversia sul training data: LAION-5B e i diritti delle immagini

DALL-E 2, come i modelli concorrenti, è stato addestrato su LAION-5B, un dataset di 5 miliardi di coppie testo-immagine raccolte attraverso scraping del web. Le immagini incluse sono state estratte da siti pubblici senza il consenso degli autori originali — fotografi professionisti, illustratori, artisti digitali.

La reazione della comunità artistica è immediata e intensa. Migliaia di artisti esprimono preoccupazione per il fatto che il proprio stile e le proprie opere vengano usate per addestrare sistemi commerciali che potrebbero ridurre la domanda del loro lavoro. Getty Images ha intentato causa contro Stability AI (il produttore di Stable Diffusion) nel gennaio 2023, sostenendo la violazione del copyright su milioni di immagini del suo archivio.

Il dibattito tocca questioni fondamentali ancora irrisolte: lo scraping di immagini pubbliche costituisce uso legittimo? Il modello "ricorda" le immagini di training o crea qualcosa di genuinamente nuovo? Può uno stile artistico essere protetto da copyright? Queste domande continuano a essere oggetto di contenzioso legale e discussione legislativa.

L'impatto culturale: il momento in cui tutto è cambiato

DALL-E 2 ha rappresentato un punto di discontinuità culturale. Prima del suo lancio, la generazione di immagini da AI era un campo tecnico di nicchia, accessibile solo a ricercatori e sviluppatori. Dopo, è diventato un fenomeno di massa: articoli su ogni testata mainstream, dibattiti nei social media, prime pagine di riviste con immagini generate dall'AI.

La prima copertina di The Economist generata con AI (giugno 2022, usando DALL-E 2) ha segnato un momento simbolico: l'AI visiva non era più una curiosità tecnologica, ma uno strumento capace di produrre contenuti pubblicabili nelle sedi editoriali più autorevoli.

L'effetto su artisti e creativi è stato complesso: crescita della preoccupazione lavorativa — soprattutto per illustratori e graphic designer che producono lavoro su commissione — ma anche nascita di nuovi workflow ibridi che combinano creatività umana e strumenti AI per accelerare ideazione e prototipazione visiva.

Link alla fonte originale

OpenAI Research — DALL-E 2 →

Pagina di ricerca ufficiale OpenAI con il paper tecnico, esempi di generazione, inpainting e outpainting. Preview aprile 2022, apertura pubblica luglio 2022.