PaLM-E: il primo VLM embodied a 562 miliardi di parametri

In una frase Google presenta PaLM-E, modello multimodale da 562B parametri che riceve direttamente immagini e stato robotico nel transformer, capace di pianificazione long-horizon su robot reali.

Verificato Fonte ufficiale

CondividiLinkedIn X

PaLM-E è il primo modello che fonde visione, linguaggio e controllo robotico in un unico transformer gigantesco da 562 miliardi di parametri — all'epoca il più grande modello multimodale mai costruito.

La novità rispetto ai sistemi precedenti è che le osservazioni fisiche del robot (immagini delle camere, posizione degli arti, stato dell'ambiente) entrano direttamente nella sequenza del transformer, come se fossero token di testo. Il modello può quindi ragionare su domande come "cosa devo fare per portare la tazza alla persona seduta?" vedendo il mondo reale.

I test mostrano capacità di pianificazione su sequenze lunghe di azioni su robot mobili in ambienti reali, senza dover ridefinire ogni task da zero.