RT-2: il robot che ragiona con un language model

In una frase RT-2 di DeepMind unisce vision-language pretraining e controllo robotico: il robot trasferisce ragionamento semantico da web a braccio fisico senza addestramento specifico.

Verificato Fonte ufficiale

CondividiLinkedIn X

RT-2 è il successore di RT-1 con una differenza fondamentale: il modello di base non è addestrato solo su dati robotici, ma anche su miliardi di immagini e testo del web. Questo significa che il robot "sa già" molte cose sul mondo prima ancora di toccare un oggetto.

Il risultato pratico è sorprendente: se chiedi al robot di "prendere l'oggetto che si usa per tagliare la frutta", lo fa correttamente anche senza aver mai visto quella frase durante l'addestramento. Il ragionamento semantico del language model si trasferisce al controllo fisico.

È come prendere un modello come GPT e insegnargli a muovere le mani: il linguaggio diventa il ponte tra conoscenza del mondo e azione fisica.