5 marzo 2024 Alto Generazione immagini & video · 1 min lettura

Stable Diffusion 3: architettura Diffusion Transformer e testo migliorato

In una frase Stability AI annuncia SD3 con architettura Multi-Modal Diffusion Transformer (MMDiT), rendering testo competitivo con Imagen 2 e DALL-E 3, qualità visiva superiore a SDXL.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Stable Diffusion 3 non è un aggiornamento incrementale: è un cambio di architettura. Abbandona la classica UNet dei modelli precedenti e adotta un Transformer come motore principale, lo stesso tipo usato nei modelli linguistici di testo.

Questo porta due vantaggi concreti: il testo nelle immagini è molto più leggibile e preciso, e la qualità visiva complessiva — composizione, proporzioni, dettagli — migliora in modo evidente rispetto a Stable Diffusion XL.

Il modello viene annunciato in versione preview ad accesso anticipato, con pesi aperti previsti in seguito. La comunità lo attende come possibile nuovo standard open source.

Aziende

Stability AI

Tool

Stable Diffusion 3, SD3

Tag

Stability AIStable Diffusion 3MMDiTDiffusion TransformerText Rendering

Fonti

https://stability.ai/news/stable-diffusion-3