CrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa

In una frase Berkeley e Stanford presentano CrossFormer, una singola policy transformer addestrata su 900k traiettorie provenienti da oltre 20 diversi robot. Si trasferisce a nuovi robot in pochi minuti con minimal fine-tuning. Primo modello foundation cross-embodiment con analisi di scaling rigorosa.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Ogni tipo di robot è diverso: ha braccia diverse, sensori diversi, modi di muoversi diversi. Tradizionalmente, ogni robot richiede la propria policy addestrata da zero. CrossFormer cambia questo paradigma: un unico modello, addestrato su tantissimi robot diversi, che funziona su quasi tutti.

Il sistema è stato addestrato su 900.000 traiettorie raccolte da più di 20 tipi diversi di robot — bracci fissi, robot mobili, pinze diverse, configurazioni diverse. Il modello impara le strutture comuni dell'interazione fisica con il mondo, indipendentemente dalla forma specifica del robot.

Il risultato più sorprendente è la velocità di adattamento: quando si introduce un robot completamente nuovo, CrossFormer impara a controllarlo in pochi minuti di fine-tuning, invece delle ore o giorni richiesti da modelli addestrati da zero.

Ancora più importante, Berkeley e Stanford hanno condotto un'analisi rigorosa di come la performance migliora all'aumentare dei dati e della dimensione del modello. Questo tipo di "analisi di scaling" è comune nei modelli linguistici, ma era assente nella robotica. Ora sappiamo che più dati e modelli più grandi portano davvero a policy migliori — e questo guida le decisioni di investimento in tutto il campo.