SayCan: grounding dei LLM nelle affordance robotiche

In una frase Google Robotics mostra come combinare un LLM per la pianificazione ad alto livello con value functions robotiche che filtrano solo le azioni fisicamente eseguibili.

Verificato Fonte ufficiale

CondividiLinkedIn X

Un robot che capisce il linguaggio naturale può ricevere ordini come "portami uno spuntino che non abbia troppo zucchero", ma sa come eseguirli fisicamente? SayCan risolve questo disallineamento con un'architettura in due parti.

Il modello linguistico propone una lista di azioni candidate ("prendi la mela", "apri il frigo", "porta la bottiglietta d'acqua"). Una value function addestrata sul robot reale assegna a ogni azione una probabilità di riuscita fisica nell'ambiente corrente.

Il risultato finale è il prodotto dei due punteggi: il robot sceglie l'azione che è sia linguisticamente sensata sia fisicamente fattibile. I test avvengono su un robot mobile in una cucina reale con 551 varianti di istruzioni.