20 ottobre 2024 Alto AI multimodale · 1 min lettura

EMU3: un unico transformer per testo, immagini e video

In una frase BAAI presenta EMU3, modello unificato che genera testo, immagini e video con un singolo transformer autoregressivo addestrato su token discreti visivi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Di solito ci sono modelli separati per scrivere testo, generare immagini e creare video. EMU3 è diverso: usa un unico modello per fare tutto e tre. Il segreto sta nel convertire immagini e video in "token" discreti, come parole di un vocabolario visivo, in modo che il transformer li tratti esattamente come il testo. Il risultato è un sistema che può passare fluidamente dalla scrittura alla generazione visiva, capendo i collegamenti tra modalità diverse senza bisogno di connettori separati.

Aziende

BAAI, Beijing Academy of Artificial Intelligence

Tool

EMU3, SVAR

Tag

Unified ModelAutoregressiveImage GenerationVideo GenerationDiscrete Tokens

Fonti

https://arxiv.org/abs/2409.18869