Salta al contenuto
AImpact
IT EN
Addestramento Intermedio Anche noto come: Proximal Policy Optimization · Ottimizzazione di policy prossimale

PPO

/pee-pee-oh/

Algoritmo di reinforcement learning che aggiorna il modello in piccoli passi, evitando di allontanarsi troppo dalla versione precedente.

CondividiLinkedInX

In pratica

È stato il motore di RLHF nei primi ChatGPT: massimizza il reward umano senza far divergere il modello. Notoriamente difficile da stabilizzare e con molti iperparametri. Per questo motivo molti team open source preferiscono DPO, che ottiene risultati simili con meno fatica.

Termini collegati

← Tutti i termini