GR-2: ByteDance preaddestra robot su 38.000 ore di video umani da internet

In una frase ByteDance presenta GR-2, un robot generalista che usa 38.000 ore di video di attività umane da internet come pre-training prima dei dati robotici. Raggiunge l'88,9% di successo su 100 task, migliore al momento della pubblicazione, dimostrando che i video internet sono dati robot scalabili.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Uno dei grandi problemi della robotica è che raccogliere dati robot è lento e costoso: ogni dimostrazione richiede un robot fisico, un operatore, e tempo. ByteDance ha trovato una scorciatoia geniale: usare i video di YouTube e altri contenuti internet dove gli esseri umani fanno cose con le mani.

GR-2 viene prima addestrato su 38.000 ore di video di attività umane — cucina, bricolage, artigianato, tutto ciò che mostra mani che manipolano oggetti — e solo successivamente su dati robotici reali. Il pre-training su video umani insegna al modello la fisica di base degli oggetti, come si comportano le cose quando vengono afferrate, spostate, versate.

Il risultato è un robot che su 100 task diversi riesce nell'88,9% dei casi, il risultato migliore disponibile al momento della pubblicazione. La performance è particolarmente alta su task che richiedono comprensione dell'interazione oggetto-oggetto e delle conseguenze fisiche delle azioni.

GR-2 dimostra che l'enorme quantità di video disponibile su internet non è solo utile per addestrare modelli linguistici o di generazione immagini, ma può diventare una fonte di conoscenza fisica per i robot. Questo cambia radicalmente la scalabilità del problema: invece di raccogliere milioni di ore di dati robot, si può sfruttare l'esperienza umana già registrata.