Addestramento Intermedio Anche noto come: Proximal Policy Optimization · Ottimizzazione di policy prossimale

PPO

/pee-pee-oh/

Algoritmo di reinforcement learning che aggiorna il modello in piccoli passi, evitando di allontanarsi troppo dalla versione precedente.

CondividiLinkedIn X

In pratica

È stato il motore di RLHF nei primi ChatGPT: massimizza il reward umano senza far divergere il modello. Notoriamente difficile da stabilizzare e con molti iperparametri. Per questo motivo molti team open source preferiscono DPO, che ottiene risultati simili con meno fatica.

Termini collegati

RLHF DPO Alignment Loss Function

Visto in azione

2 voci che lo citano

22 gennaio 2025

Microsoft 365 Copilot Autonomous Agents: Sales, IT e HR lavorano senza supervisione continua

Alto
15 agosto 2024

Zendesk AI Suite: agenti autonomi per customer support end-to-end

Medio

← Tutti i termini