Article · Product launch
Flux.1 — Il Modello Image Gen dei Founder Stable Diffusion che ha Battuto Midjourney
Original source: Black Forest Labs · blackforestlabs.ai — Agosto 2024 — summary and rework in own words.
Cos'è: Flux.1 è la famiglia di modelli text-to-image rilasciata dalla startup tedesca Black Forest Labs il 1° agosto 2024. Fondata pochi mesi prima da Robin Rombach, Andreas Blattmann e altri ricercatori originariamente autori dei Latent Diffusion Models alla base di Stable Diffusion, l'azienda esce dallo stealth con tre varianti del modello — Pro, Dev, Schnell — e una dichiarazione esplicita di voler riportare lo stato dell'arte dell'image generation open in Europa dopo il collasso di Stability AI.
Chi sono i fondatori e perché contano
Black Forest Labs (BFL) non è una startup AI qualsiasi. Il team fondatore include Robin Rombach e Andreas Blattmann, primi autori del paper "High-Resolution Image Synthesis with Latent Diffusion Models" (CVPR 2022) — il lavoro accademico che ha reso possibile Stable Diffusion. Insieme a loro, altri ricercatori chiave che avevano portato avanti la ricerca sui modelli generativi prima e durante la loro permanenza in Stability AI.
Il loro abbandono di Stability AI nel marzo 2024, in coincidenza con le dimissioni di Emad Mostaque e con la crisi finanziaria dell'azienda, è stato letto dall'industria come un segnale duro: i creatori tecnici originali della tecnologia avevano perso fiducia nella gestione. La nascita di Black Forest Labs ad agosto 2024 — con sede a Friburgo, nella Foresta Nera tedesca da cui prende il nome — ha rappresentato il loro tentativo di ricominciare con una nuova struttura proprietaria e una roadmap focalizzata sulla qualità tecnica.
Tre varianti, tre licenze, tre pubblici
Il lancio simultaneo di tre versioni del modello è una scelta strategica precisa, pensata per coprire l'intero spettro di utilizzo dal consumer all'enterprise:
- Flux.1 [pro] — Modello di punta, accessibile solo via API. Closed weights, pricing a uso, qualità massima. Pensato per integrazioni commerciali e prodotti enterprise.
- Flux.1 [dev] — Pesi aperti scaricabili da HuggingFace, ma con licenza non-commerciale (Flux-1 Dev Non-Commercial License). Pensato per ricerca, sperimentazione, fine-tuning della community. Qualità molto vicina alla versione Pro.
- Flux.1 [schnell] — Variante distillata e veloce (da "schnell", rapido in tedesco), rilasciata sotto licenza Apache 2.0 completamente permissiva, anche per uso commerciale. Genera immagini in 1-4 step di diffusion contro i 20-50 della versione Pro.
Questa struttura a tre livelli risolve un problema centrale dell'image gen open source: come monetizzare la ricerca senza chiudere la comunità. Stability AI aveva oscillato tra eccessiva apertura (che impediva il revenue) e tentativi di chiusura (che alienavano la community). BFL traccia una linea netta: la versione gratuita-commerciale esiste ma è la più piccola; la versione di ricerca è gratis ma non-commerciale; la versione top è chiusa ma a pagamento.
Architettura: hybrid MoE e Flow Matching
Dal punto di vista tecnico, Flux.1 non è semplicemente un upgrade di Stable Diffusion. L'architettura combina due innovazioni che lo distinguono dai diffusion model tradizionali.
Primo: Mixture-of-Experts (MoE) ibrido. Anziché un singolo network monolitico, parti del modello sono divise in "esperti" attivati selettivamente in base all'input. Questo approccio, reso celebre da Mixtral di Mistral nel mondo LLM, consente di scalare la capacità del modello (12 miliardi di parametri totali per la versione Pro) senza che ogni inferenza paghi il costo computazionale dell'intero network.
Secondo: Flow Matching invece del classico DDPM/DDIM. Il Flow Matching è una tecnica di addestramento per modelli generativi continui che apprende direttamente il "campo di velocità" che trasforma una distribuzione di rumore nella distribuzione delle immagini target. Rispetto al denoising tradizionale, riduce il numero di step necessari per la generazione e migliora la stabilità del training. È la stessa famiglia di tecniche alla base di Stable Diffusion 3, sviluppate proprio dal team BFL prima della loro uscita.
Il benchmark che ha fatto rumore: battere Midjourney v6
Pochi giorni dopo il lancio, Flux.1 [pro] è apparso sull'LMSys Image Arena, una piattaforma di valutazione blind in cui utenti reali confrontano immagini generate da due modelli anonimi sullo stesso prompt e votano la preferita. È il benchmark più rispettato del settore proprio perché basato su human preference, non su metriche automatiche facilmente manipolabili.
Flux.1 [pro] ha superato Midjourney v6, Ideogram 2.0 e DALL-E 3 nel ranking ELO, posizionandosi in cima alla classifica. Per un modello al debutto, da un'azienda di poche persone fondata pochi mesi prima, era un risultato straordinario. La community AI ha reagito con un misto di sorpresa e ammirazione: i fondatori avevano fatto in pochi mesi a Friburgo quello che Stability AI non era riuscita a fare con centinaia di milioni di dollari di funding.
$31M Serie A e la partnership con X.com
Il 1° ottobre 2024, BFL annuncia una Serie A da $31 milioni guidata da Andreessen Horowitz, con partecipazione di Brendan Iribe (ex-Oculus) e altri investitori. Una somma relativamente piccola nel panorama AI, ma sufficiente per un team focalizzato sulla ricerca senza la pressione di crescita a tutti i costi.
Più clamorosa è stata la rivelazione, già dal lancio di agosto, che Grok di X.com utilizzava Flux.1 per la generazione di immagini nella piattaforma social di Elon Musk. La partnership ha portato Flux.1 davanti a centinaia di milioni di utenti X, ma ha anche generato controversie: gli utenti hanno rapidamente scoperto che Grok aveva pochissimi filtri sulla generazione di contenuti sensibili (politici, celebrità, scene violente), in contrasto netto con la prudenza di DALL-E e Midjourney. BFL ha mantenuto una posizione neutra sulla policy di utilizzo da parte dei clienti.
Flux 1.1 Pro e Flux Tools: la roadmap autunno 2024
L'8 ottobre 2024 BFL rilascia Flux 1.1 [pro], una versione aggiornata con velocità di generazione fino a 6x superiore rispetto alla 1.0 a parità di qualità. Il modello è apparso brevemente sull'LMSys Arena sotto il codename "Blueberry" prima del rilascio ufficiale, dove aveva già scalato la classifica.
A novembre 2024 arriva Flux Tools: una suite di funzionalità che estende il modello base con controlli specifici per il workflow professionale:
- Flux.1 Fill — Inpainting e outpainting state-of-the-art, per modificare porzioni di immagine o estendere il canvas oltre i bordi.
- Flux.1 Depth — Condizionamento via mappa di profondità, per riprodurre la struttura tridimensionale di un'immagine di riferimento con contenuto diverso.
- Flux.1 Canny — Condizionamento via edge map, per mantenere la struttura compositiva con uno stile completamente differente.
- Flux.1 Redux — Variation di immagini esistenti, per generare alternative dello stesso soggetto.
Queste sono funzionalità che la community Stable Diffusion aveva costruito autonomamente via ControlNet nel 2023, ma con architettura non integrata e qualità variabile. BFL le offre come componenti first-party del modello, con qualità professionale e API stabile.
Posizionamento: il vuoto lasciato da Stability AI
Nel 2024, il collasso di Stability AI come azienda ha lasciato un vuoto strategico. Stable Diffusion 3, rilasciato a giugno 2024, aveva ricevuto critiche tecniche significative (problemi con anatomia umana in particolare) e Stability stessa stava operando con personale ridotto e una governance instabile.
Black Forest Labs ha occupato esattamente questo spazio: l'erede tecnico naturale di Stable Diffusion, costruito dalle stesse persone che avevano creato la tecnologia originale, ma con una struttura aziendale più sana e una strategia commerciale chiara. La community open source che si era costruita intorno a Stable Diffusion — tool come ComfyUI, Automatic1111, le migliaia di LoRA su CivitAI — ha rapidamente esteso il supporto a Flux.1.
Per la fine del 2024, Flux è diventato il modello di riferimento per chi cercava qualità top-tier con possibilità di esecuzione locale (via la versione Dev). Midjourney resta dominante per l'estetica artistica curata e la community Discord; DALL-E 3 mantiene la sua nicchia di integrazione conversazionale dentro ChatGPT; ma per il pubblico tecnico-creativo che vuole controllo e qualità grezza, Flux ha preso il posto che Stable Diffusion aveva storicamente occupato.
Link alla fonte originale
blackforestlabs.ai — Announcing Black Forest Labs →
Annuncio ufficiale di lancio del 1° agosto 2024. Modelli scaricabili da HuggingFace (huggingface.co/black-forest-labs), API a pagamento via fal.ai, Replicate e endpoint diretti BFL.