Alto AI multimodale · 1 min lettura
EMU3: un unico transformer per testo, immagini e video
In una frase BAAI presenta EMU3, modello unificato che genera testo, immagini e video con un singolo transformer autoregressivo addestrato su token discreti visivi.
Livello di lettura
Di solito ci sono modelli separati per scrivere testo, generare immagini e creare video. EMU3 è diverso: usa un unico modello per fare tutto e tre. Il segreto sta nel convertire immagini e video in "token" discreti, come parole di un vocabolario visivo, in modo che il transformer li tratti esattamente come il testo. Il risultato è un sistema che può passare fluidamente dalla scrittura alla generazione visiva, capendo i collegamenti tra modalità diverse senza bisogno di connettori separati.
Aziende
BAAI, Beijing Academy of Artificial Intelligence
Tool
EMU3, SVAR
Tag
Unified ModelAutoregressiveImage GenerationVideo GenerationDiscrete Tokens
Fonti