Addestramento Avanzato Anche noto come: Reward Function Design · Reward Engineering

Reward Shaping

Il design dei segnali di reward che guidano l'apprendimento per rinforzo senza sovradattarsi a misure proxy. Reward mal progettati portano al reward hacking: l'agente ottimizza la metrica invece di risolvere il task reale. I modelli LLM ora automatizzano il reward design (Eureka/NVIDIA): GPT-4 scrive funzioni reward in Python, le esegue in simulazione e itera in base alle prestazioni dell'agente. È critico per robotica, game AI e RLHF con feedback umano.

CondividiLinkedIn X

In pratica

Un ricercatore che addestra un robot a camminare deve bilanciare reward per velocità, stabilità e consumo energetico — troppa enfasi sulla velocità produce andature bizzarre o 'reward hacking'. Con Eureka, si descrive il task in linguaggio naturale e un LLM genera automaticamente la funzione reward, eseguendola in simulazione Isaac Gym e rifinanando i pesi sulla base delle metriche di performance. Lo stesso principio vale per RLHF: la reward function del modello linguistico deve catturare 'utilità reale', non solo 'sembra convincente'.

Termini collegati

RLHF RLAIF PPO Alignment

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini