Make-A-Video: Meta presenta il primo text-to-video credibile

In una frase Meta AI mostra Make-A-Video, un sistema che genera brevi clip animate a partire da una descrizione testuale, riutilizzando un modello text-to-image pre-esistente.

Verificato Fonte ufficiale

CondividiLinkedIn X

Dopo le immagini, tocca ai video. Meta presenta un modello che, data una frase tipo "un orso che suona il piano", produce una clip animata di pochi secondi.

L'idea elegante: non bisogna ri-addestrare tutto da zero. Si parte da un modello che sa già fare immagini fisse e gli si insegna come muoverle, usando filmati senza didascalia. Il modello impara prima "cosa" (dal testo) e poi "come si muove" (dai video).

I risultati sono ancora corti e mossi, ma per la prima volta vedi un'AI che capisce "un cane che corre" come una cosa nel tempo, non solo come un disegno. È l'antefatto di tutti i text-to-video successivi: Runway Gen-2, Pika, Sora.