Addestramento Avanzato Anche noto come: Diffusion-based Imitation Learning

Diffusion Policy

Un metodo di imitation learning per robot in cui la policy è un modello diffusivo a denoising: dato un'osservazione, itera denoising di una sequenza di azioni casuale fino a ottenere l'azione da eseguire. A differenza delle policy deterministiche, le diffusion policy apprendono distribuzioni di azioni multimodali — gestiscono task con molteplici soluzioni valide senza mediare in una soluzione scadente. Supera il behavioral cloning del 46%+ sui benchmark di manipolazione.

CondividiLinkedIn X

In pratica

Un ricercatore di robotica che raccoglie dimostrazioni umane per un task di assemblaggio addestra una Diffusion Policy su quei dati: il modello impara che 'posizionare il pezzo a sinistra' e 'posizionarlo a destra' sono entrambe soluzioni valide e campiona in modo coerente una delle due, invece di produrre il movimento medio (sbagliato) come fa il behavioral cloning classico. Librerie come diffusion_policy di Columbia o LeRobot di Hugging Face offrono implementazioni pronte all'uso.

Termini collegati

Diffusion model SFT Fine-tuning Distillation

Visto in azione

4 voci che lo citano

← Tutti i termini