RT-2: il robot che ragiona con un language model
In una frase RT-2 di DeepMind unisce vision-language pretraining e controllo robotico: il robot trasferisce ragionamento semantico da web a braccio fisico senza addestramento specifico.
RT-2 è il successore di RT-1 con una differenza fondamentale: il modello di base non è addestrato solo su dati robotici, ma anche su miliardi di immagini e testo del web. Questo significa che il robot "sa già" molte cose sul mondo prima ancora di toccare un oggetto.
Il risultato pratico è sorprendente: se chiedi al robot di "prendere l'oggetto che si usa per tagliare la frutta", lo fa correttamente anche senza aver mai visto quella frase durante l'addestramento. Il ragionamento semantico del language model si trasferisce al controllo fisico.
È come prendere un modello come GPT e insegnargli a muovere le mani: il linguaggio diventa il ponte tra conoscenza del mondo e azione fisica.
Aziende
DeepMind, Google
Tool
RT-2, PaLI-X, PaLM-E
Tag
Fonti