UnifiedIO (AI2): primo modello sequence-to-sequence unificato per testo, immagini, audio e video
In una frase AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.
Pensa a come funzionano normalmente i modelli AI: hai un modello per le immagini, un altro per il testo, un altro per l'audio. Ognuno parla una lingua diversa e non sa cosa fanno gli altri. Per costruire un'applicazione che usa tutti insieme devi scrivere codice che li colleghi, gestire formati diversi, e sperare che non si contraddicano.
UnifiedIO ha provato a risolvere questo problema in modo radicale: costruire un singolo modello che capisce e produce testo, immagini, audio, video e strutture dati come fossero tutti varianti dello stesso "linguaggio".
Il trucco è trasformare tutto in sequenze — le immagini diventano sequenze di pixel codificati, l'audio diventa una sequenza di frequenze, il testo è già una sequenza. Una volta che tutto è nella stessa forma, un unico modello Transformer può imparare a capirle tutte e a produrle tutte.
Al momento del lancio, era addestrato su oltre 80 task diversi contemporaneamente: traduzione, risposta a domande su immagini, generazione di audio da testo, classificazione di video. Non il migliore in nessuna singola categoria, ma l'unico a farle tutte. Era il prototipo di quello che oggi chiamiamo modelli "any-to-any".
Aziende
AI2, University of Washington
Tool
—
Tag
Fonti