24 gennaio 2022 Medio AI multimodale · 1 min lettura

UnifiedIO (AI2): primo modello sequence-to-sequence unificato per testo, immagini, audio e video

In una frase AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Livello di lettura

Pensa a come funzionano normalmente i modelli AI: hai un modello per le immagini, un altro per il testo, un altro per l'audio. Ognuno parla una lingua diversa e non sa cosa fanno gli altri. Per costruire un'applicazione che usa tutti insieme devi scrivere codice che li colleghi, gestire formati diversi, e sperare che non si contraddicano.

UnifiedIO ha provato a risolvere questo problema in modo radicale: costruire un singolo modello che capisce e produce testo, immagini, audio, video e strutture dati come fossero tutti varianti dello stesso "linguaggio".

Il trucco è trasformare tutto in sequenze — le immagini diventano sequenze di pixel codificati, l'audio diventa una sequenza di frequenze, il testo è già una sequenza. Una volta che tutto è nella stessa forma, un unico modello Transformer può imparare a capirle tutte e a produrle tutte.

Al momento del lancio, era addestrato su oltre 80 task diversi contemporaneamente: traduzione, risposta a domande su immagini, generazione di audio da testo, classificazione di video. Non il migliore in nessuna singola categoria, ma l'unico a farle tutte. Era il prototipo di quello che oggi chiamiamo modelli "any-to-any".

Aziende

AI2, University of Washington

Tool

—

Tag

UnifiedIOmultimodalunified modelsequence-to-sequenceany-to-anyAI2

Fonti

https://arxiv.org/abs/2206.08916