Eureka: NVIDIA usa GPT-4 per scrivere funzioni reward e addestrare robot esperti

In una frase NVIDIA presenta Eureka, il primo sistema che usa un LLM (GPT-4) per generare automaticamente funzioni di reward per il reinforcement learning robotico. Il sistema raggiunge manipolazione destrezza a livello esperto, incluso lo spinning della penna, senza reward design manuale.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Nel reinforcement learning, insegnare a un robot cosa fare richiede di scrivere una "funzione reward": una formula matematica che dice al robot quanto bene sta andando. Progettare questa formula è un lavoro artigianale che richiede settimane di esperienza e sperimentazione. Eureka di NVIDIA elimina questa fatica.

Il sistema usa GPT-4 per leggere il codice del simulatore, capire cosa il robot deve fare, e scrivere automaticamente la funzione reward in Python. Poi quella funzione viene testata nel simulatore Isaac Gym, il risultato viene mostrato di nuovo a GPT-4, e il modello riscrive e migliora la funzione. Questo ciclo si ripete fino a ottenere ottimi risultati.

Il test più impressionante: far girare una penna tra le dita come un prestigiatore. È un task di manipolazione destrezza di altissima difficoltà. Eureka ci riesce al livello di un esperto umano, usando reward generate da un LLM senza nessun intervento manuale nella progettazione.

La svolta è che ora progettare comportamenti robotici complessi non richiede più un esperto di RL che passi settimane a calibrare formule matematiche. Basta descrivere l'obiettivo.