DALL-E 3: immagini che seguono davvero le istruzioni

In una frase OpenAI lancia DALL-E 3 integrato in ChatGPT: aderenza al prompt drasticamente migliorata rispetto a DALL-E 2, caption synthesis automatica per il training, testo nelle immagini più leggibile.

Verificato Fonte ufficiale

CondividiLinkedIn X

Con DALL-E 2, chiedere "un gatto con un cappello rosso che legge un giornale" produceva risultati caotici: il cappello spariva, il giornale diventava illeggibile, il gatto faceva quello che voleva. DALL-E 3 risolve proprio questo: l'immagine generata segue il testo quasi alla lettera.

Il trucco è che OpenAI ha riscritto tutte le didascalie dei dati di training usando GPT-4: invece di caption brevi e vaghe, ogni immagine ha una descrizione dettagliata. Il modello impara così ad abbinare parole precise a dettagli visivi precisi.

L'integrazione diretta in ChatGPT abbassa la barriera: niente API, niente prompt engineering specialistico. Si chiede in linguaggio naturale e si ottiene un'immagine di qualità professionale.