CogVideoX: il primo modello video open source competitivo con i commerciali
In una frase Zhipu AI rilascia CogVideoX 5B e 10B: modello text-to-video open source con architettura 3D full attention, 720p, clip da 10 secondi con alta coerenza del movimento. Primo modello cinese open source che compete con Sora e Kling. Pesi disponibili su HuggingFace.
Fino a meta 2024, il video AI di qualita era tutto chiuso: Sora (non pubblico), Kling (cinese, API limitata), Runway (cloud, costoso). Se volevi girare un modello video sul tuo server, le opzioni open source erano deludenti.
CogVideoX cambia questa situazione. Zhipu AI rilascia pesi completi — 5 miliardi e 10 miliardi di parametri — su HuggingFace, scaricabili e utilizzabili liberamente. Il modello genera video 720p di 10 secondi con una coerenza del movimento che non si era mai vista nell'open source.
Per gli sviluppatori, questo significa poter costruire pipeline video self-hosted per la prima volta con risultati presentabili. Non siamo ancora a Sora, ma per la prima volta l'open source entra in un territorio in cui il confronto con i prodotti commerciali ha senso.
Aziende
Zhipu AI
Tool
—
Tag
Fonti