MT-OPT: Google addestra un robot su 800 task con 57.000 ore di dati reali

In una frase Google pre-addestra una singola policy su oltre 800 task robotici e 57.000 ore di dati reali, dimostrando per la prima volta il trasferimento zero-shot a task nuovi tramite apprendimento multi-task offline.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Immagina di dover insegnare a qualcuno un mestiere partendo da zero. Di solito lo si fa su un compito alla volta. Google ha fatto qualcosa di molto diverso: ha preso un robot e lo ha fatto esercitare su oltre 800 compiti diversi contemporaneamente, accumulando 57.000 ore di esperienza reale. Non simulata, reale.

Il risultato si chiama MT-OPT, che sta per Multi-Task Offline Pre-Training. L'idea è semplice quanto potente: se un robot vede abbastanza variazioni di compiti diversi durante l'addestramento, impara principi generali che può poi applicare a compiti che non ha mai visto prima, senza ulteriore training.

Questo è il cosiddetto trasferimento zero-shot: il robot non ha bisogno di ricominciare da capo per ogni nuovo compito. Come un cuoco che, avendo cucinato migliaia di piatti, riesce ad adattarsi istintivamente a una ricetta nuova senza doverla studiare per giorni.

Prima di MT-OPT, i robot venivano generalmente addestrati su singoli task. Questo lavoro dimostra che la scala e la diversità dei dati contano anche nella robotica, esattamente come avviene nei modelli linguistici. È una delle prime evidenze concrete che il paradigma dei foundation model può funzionare anche nel mondo fisico.