Veo 2 — Google DeepMind Risponde a Sora con Generazione Video 4K

Cos'è: Veo 2 è il modello text-to-video di seconda generazione di Google DeepMind, annunciato a dicembre 2024. Genera video fino a 4K di risoluzione e fino a 2 minuti di durata, superando i limiti del competitor diretto OpenAI Sora (1080p, 1 minuto). Si presenta come la risposta tecnologicamente più matura nel campo della generazione video AI, con un'enfasi particolare sulla comprensione cinematografica e sul controllo da parte del creator.

Il contesto: la corsa al video AI dopo Sora

Il 2024 è stato l'anno della generazione video AI. A febbraio, OpenAI aveva presentato Sora con demo che avevano scosso Hollywood — ma poi tenuto il modello chiuso ai red teamer fino a dicembre. Tra febbraio e dicembre, altri player avevano colmato il vuoto: Runway con Gen-3 Alpha, Pika con Pika 1.5, Kuaishou con Kling 1.0 e poi 1.5, Tencent con HunyuanVideo, Meta con Movie Gen (annunciato ma non rilasciato pubblicamente).

Google aveva mostrato Veo 1 a maggio 2024 al Google I/O, ma con disponibilità limitata. Il rilascio di Veo 2 il 16 dicembre 2024 — soli pochi giorni dopo la disponibilità pubblica di Sora — è stata una mossa di precisione competitiva, pensata per occupare lo spazio mediatico subito dopo il lancio del rivale. Le demo pubblicate da DeepMind mostravano qualità visiva e coerenza fisica considerate dalla critica tecnica generalmente superiori a quelle di Sora.

Le specifiche tecniche che fanno la differenza

Veo 2 stabilisce nuovi parametri nel settore su tre dimensioni misurabili.

Risoluzione fino a 4K (3840×2160). Sora pubblico massimo 1080p, le altre piattaforme commerciali si attestano tra 720p e 1080p. Il 4K nativo, non upscalato, è un salto di quattro volte la quantità di pixel per frame. La differenza è visivamente evidente su display professionali e abilita casi d'uso (broadcast, cinema) che 1080p escludeva.

Durata fino a 2 minuti. Sora pubblico massimo 20 secondi (la versione "60 secondi" mostrata nelle demo di febbraio 2024 non è arrivata al pubblico). Veo 2 raddoppia la durata teorica, anche se nelle prime release il limite pratico per gli utenti è inferiore. La coerenza narrativa su sequenze più lunghe resta una sfida aperta per tutti i modelli, ma più frame disponibili significano più possibilità per il creator.

Frame rate fluido e movimento naturale. Le demo Veo 2 mostrano un controllo della fisica e del movimento — fluidi, capelli, abiti, oggetti che cadono — che riduce significativamente i tipici artefatti "AI video" (oggetti che mutano forma tra frame, arti che si moltiplicano, fisica impossibile). Non è perfetto, ma l'asticella si è alzata.

Architettura: diffusion transformer su latent video

Google DeepMind non ha pubblicato il technical report completo di Veo 2 al momento del lancio, ma le informazioni disponibili indicano un'architettura nella famiglia dei diffusion transformer (DiT), simile a quella di Sora ma con scelte ingegneristiche distinte.

Il modello opera su un latent space video — il video viene compresso in token spazio-temporali tramite un encoder, la diffusion avviene nello spazio latente compresso, un decoder ricostruisce il video finale ad alta risoluzione. È la stessa logica architettonica di Stable Diffusion estesa alla terza dimensione (tempo) con tecniche di compressione temporale specifiche.

DeepMind ha enfatizzato di aver utilizzato l'esperienza accumulata con i modelli precedenti — Imagen (image generation), Lumiere (modello video accademico del 2024), Phenaki (long video generation) — per arrivare a Veo 2. L'integrazione con Gemini, il modello LLM di punta Google, permette al sistema di "comprendere" prompt complessi con linguaggio cinematografico tecnico in modo più fedele rispetto ai competitor.

Comprensione cinematografica: il parametro lens

Una delle innovazioni più significative di Veo 2 a livello di prompt engineering è la comprensione esplicita del linguaggio cinematografico. Il modello riconosce e applica correttamente termini tecnici di regia che i modelli precedenti interpretavano in modo confuso o ignoravano.

Lens specifications. Prompt come "shot with a 35mm lens" o "85mm portrait lens" producono risultati visivamente coerenti con la caratteristica ottica della lente specificata: profondità di campo, prospettiva, compressione spaziale.
Camera movement. "Dolly zoom" (l'effetto Vertigo), "tracking shot", "crane shot", "handheld" — il modello applica movimenti di camera distinti e tecnicamente corretti.
Depth of field. "Shallow depth of field" produce bokeh e isolamento del soggetto convincenti, "deep focus" mantiene il rendering nitido di sfondo e primo piano.
Genre awareness. "Film noir", "documentary style", "wes anderson aesthetic" — il modello associa pattern visivi coerenti con la convenzione di genere richiesta.

Questo livello di controllo è particolarmente rilevante per i professionisti del settore audiovisivo. Un regista o un DOP può comunicare con Veo 2 nel proprio linguaggio tecnico, ottenendo risultati che richiederebbero ai modelli precedenti workaround verbose e meno precisi.

Disponibilità: VideoFX, Vertex AI, e il rollout enterprise

Veo 2 è stato reso disponibile inizialmente tramite due canali:

Google Labs VideoFX — Interfaccia consumer/prosumer accessibile via waitlist a labs.google/videofx. Genera video brevi (di solito 8 secondi) a 720p, con quote limitate. Pensato per testing pubblico e creazione di buzz.

Vertex AI — API enterprise tramite Google Cloud, con disponibilità annunciata per Q1 2025 a private preview per clienti selezionati. La versione full-feature 4K, 2-minuti è destinata a questo canale, con pricing pay-per-second commisurato all'uso. È il canale che porterà Veo 2 nei workflow produttivi di studi cinematografici, agenzie pubblicitarie e media company.

Questa segmentazione — consumer limitata gratis, enterprise full a pagamento — replica il pattern già visto con altri prodotti Google AI (Imagen, Gemini Pro). La logica è chiara: build hype tramite VideoFX, monetizza tramite Vertex.

Benchmark: Veo 2 vs Sora, Runway, Kling

DeepMind ha pubblicato confronti basati sul Movie Gen Bench, il benchmark introdotto da Meta nella research paper di Movie Gen di ottobre 2024. Il benchmark valuta i modelli generativi video su preferenza umana lungo dimensioni quali coerenza visiva, fedeltà al prompt, qualità motoria e plausibilità fisica.

Nelle valutazioni pubblicate da DeepMind, Veo 2 batte Sora, Runway Gen-3 e Kling su overall preference (rispettivamente con margini del 59%, 65%, 68% di vittoria nei confronti pairwise). I numeri sono ovviamente prodotti dall'azienda che lancia il prodotto e vanno presi con la cautela appropriata. Valutazioni indipendenti successive — community confronti su Reddit, analisi di YouTuber tech come MattVidPro e Wes Roth — hanno generalmente confermato la superiorità qualitativa media di Veo 2, con alcune eccezioni dove Sora vince su tipologie specifiche di prompt (ad esempio scene urbane ad alta complessità).

SynthID: il watermarking invisibile

Tutti i video generati da Veo 2 includono SynthID, la tecnologia di watermarking sviluppata da Google DeepMind che inserisce un segnale crittografico invisibile direttamente nel contenuto video, distribuito a livello di pixel in modo che resista a compressione, rieditazione e screenshot.

Il watermarking non è percettibile all'occhio umano ma rilevabile da un detector dedicato che Google rende disponibile. L'obiettivo è permettere a piattaforme, fact-checker, sistemi di moderazione di identificare automaticamente contenuti generati da AI Google e tracciare la provenienza. La tecnologia non risolve il problema del deepfake — esistono tecniche per rimuovere o offuscare watermark, e altri modelli AI non utilizzano SynthID — ma rappresenta un tentativo industriale di costruire un'infrastruttura di accountability.

Le controversie: training data e Hollywood

Come per tutti i modelli generativi su larga scala, la questione del training data non disclosed resta aperta. DeepMind non ha pubblicato la composizione esatta del dataset di training di Veo 2. La presunzione diffusa — basata sull'analisi delle capacità del modello e sulla disponibilità di dataset video Google — è che includa quantità rilevanti di contenuto YouTube. Google possiede YouTube, ma il consenso al training AI da parte dei creator del platform è una questione legalmente e contrattualmente non chiarita.

Christopher Nolan, in interviste a Wired e Variety di fine 2024, ha criticato apertamente l'uso di video AI generation per la produzione cinematografica, sostenendo che la regia richiede intenzionalità umana che i modelli non possono replicare. Posizione condivisa da altri registi auteur come Denis Villeneuve. James Cameron, nel ruolo di board member di Stability AI fino al 2024, ha invece espresso una posizione più sfumata, vedendo nell'AI un'estensione degli strumenti VFX esistenti.

Studi major hollywoodiani — Universal Pictures, Disney, Lionsgate — hanno iniziato testing privati di Veo 2 e Sora per applicazioni di pre-visualization, storyboarding animato, e VFX preliminari. Il pattern emergente non è "AI sostituisce regista" ma "AI riduce costi nelle fasi di pre-produzione che oggi consumano budget significativi senza apparire mai sullo schermo finale". Lionsgate in particolare ha firmato un accordo annunciato con Runway nel settembre 2024 per training di un modello custom sui loro asset di archivio.

Link alla fonte originale

deepmind.google/technologies/veo/veo-2 →

Pagina ufficiale del prodotto su Google DeepMind. Accesso consumer tramite labs.google/videofx (waitlist), accesso enterprise tramite Vertex AI in private preview Q1 2025.