Stable Diffusion 3: architettura Diffusion Transformer e testo migliorato
In una frase Stability AI annuncia SD3 con architettura Multi-Modal Diffusion Transformer (MMDiT), rendering testo competitivo con Imagen 2 e DALL-E 3, qualità visiva superiore a SDXL.
Stable Diffusion 3 non è un aggiornamento incrementale: è un cambio di architettura. Abbandona la classica UNet dei modelli precedenti e adotta un Transformer come motore principale, lo stesso tipo usato nei modelli linguistici di testo.
Questo porta due vantaggi concreti: il testo nelle immagini è molto più leggibile e preciso, e la qualità visiva complessiva — composizione, proporzioni, dettagli — migliora in modo evidente rispetto a Stable Diffusion XL.
Il modello viene annunciato in versione preview ad accesso anticipato, con pesi aperti previsti in seguito. La comunità lo attende come possibile nuovo standard open source.
Aziende
Stability AI
Tool
Stable Diffusion 3, SD3
Tag
Fonti