Medio AI multimodale · 1 min lettura
LLaVA-NeXT e VideoLLaVA: LLaVA conquista il video
In una frase LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.
Livello di lettura
LLaVA era già un VLM popolare per le immagini statiche. Il salto successivo è stato capire i video: non basta vedere un singolo fotogramma, bisogna capire la sequenza temporale degli eventi. LLaVA-NeXT e VideoLLaVA risolvono questo problema campionando fotogrammi dal video e aggiungendo informazioni sulla loro posizione nel tempo. Il risultato è un modello capace di rispondere a domande su cosa succede in un video, in che ordine, e perché.
Aziende
University of Wisconsin-Madison, Microsoft Research
Tool
LLaVA-NeXT, Video-LLaVA
Tag
VLMVideo UnderstandingLLaVATemporal Reasoning
Fonti