Diffusion Policy: l'imitazione robotica diventa multi-modale con i modelli diffusivi

In una frase MIT e Columbia applicano i modelli di diffusione denoising all'imitation learning robotico, apprendendo distribuzioni di azione multi-modali invece di policy deterministiche. Ottengono un miglioramento del 46,9% sui benchmark di manipolazione.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Quando insegni a qualcuno un compito fisico, spesso esistono molti modi corretti di farlo. Un robot tradizionale addestrato per imitazione sceglie sempre un solo modo e lo segue ciecamente, anche quando sarebbe meglio adattarsi. Diffusion Policy risolve esattamente questo problema.

L'idea arriva dal mondo della generazione di immagini AI: i modelli diffusivi imparano a "derumorare" partendo da dati casuali per produrre output realistici. MIT e Columbia hanno applicato lo stesso principio alle azioni del robot: invece di predire un'azione singola e definitiva, il robot "denoise" gradualmente verso la migliore azione possibile, considerando tutte le soluzioni plausibili.

Il risultato pratico è che il robot può gestire task ambigui dove più approcci sono validi, può cambiare strategia a metà compito, e generalmente esegue meglio nelle situazioni dove un robot tradizionale si incepperebbe scegliendo la soluzione sbagliata.

I numeri parlano chiaro: +46,9% di miglioramento sui benchmark standard di manipolazione. Diffusion Policy è diventato rapidamente un componente standard nei sistemi robotici moderni, inclusi ALOHA 2 e pi-zero di Physical Intelligence.