Reward Shaping
Il design dei segnali di reward che guidano l'apprendimento per rinforzo senza sovradattarsi a misure proxy. Reward mal progettati portano al reward hacking: l'agente ottimizza la metrica invece di risolvere il task reale. I modelli LLM ora automatizzano il reward design (Eureka/NVIDIA): GPT-4 scrive funzioni reward in Python, le esegue in simulazione e itera in base alle prestazioni dell'agente. È critico per robotica, game AI e RLHF con feedback umano.
In pratica
Un ricercatore che addestra un robot a camminare deve bilanciare reward per velocità, stabilità e consumo energetico — troppa enfasi sulla velocità produce andature bizzarre o 'reward hacking'. Con Eureka, si descrive il task in linguaggio naturale e un LLM genera automaticamente la funzione reward, eseguendola in simulazione Isaac Gym e rifinanando i pesi sulla base delle metriche di performance. Lo stesso principio vale per RLHF: la reward function del modello linguistico deve catturare 'utilità reale', non solo 'sembra convincente'.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.