14 novembre 2023 Medio AI multimodale · 1 min lettura

LLaVA-NeXT e VideoLLaVA: LLaVA conquista il video

In una frase LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

LLaVA era già un VLM popolare per le immagini statiche. Il salto successivo è stato capire i video: non basta vedere un singolo fotogramma, bisogna capire la sequenza temporale degli eventi. LLaVA-NeXT e VideoLLaVA risolvono questo problema campionando fotogrammi dal video e aggiungendo informazioni sulla loro posizione nel tempo. Il risultato è un modello capace di rispondere a domande su cosa succede in un video, in che ordine, e perché.

Aziende

University of Wisconsin-Madison, Microsoft Research

Tool

LLaVA-NeXT, Video-LLaVA

Tag

VLMVideo UnderstandingLLaVATemporal Reasoning

Fonti

https://arxiv.org/abs/2310.03744