Stable Diffusion 2.0: architettura rinnovata e OpenCLIP

In una frase Stability AI rilascia SD 2.0 con OpenCLIP al posto di CLIP, risoluzione nativa 768x768, nuovo modello depth2img e inpainting migliorato. Rilascio controverso per rottura della compatibilità con LoRA e prompt esistenti.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Quattro mesi dopo la rivoluzione di Stable Diffusion 1.x, Stability AI rilascia la versione 2.0 con cambiamenti importanti sotto il cofano.

La novità più grande è il text encoder: si passa da CLIP (di OpenAI) a OpenCLIP, una versione open source addestrata su dataset diverso. Il risultato: la risoluzione nativa sale a 768x768, le immagini risultano più nitide, e arrivano due nuovi modelli — depth2img (genera immagini preservando la struttura 3D di una scena) e inpainting migliorato.

La ricezione però è divisa. Molti utenti si lamentano che i prompt che funzionavano su SD 1.5 non funzionano più, le celebrity sono state filtrate dal training data, e la compatibilità con LoRA e fine-tuning esistenti è rotta. Paradossalmente, SD 1.5 resta il modello più usato dalla community per tutto il 2023.