Salta al contenuto
AImpact
IT EN
Addestramento Intermedio Anche noto come: Direct Preference Optimization · Ottimizzazione diretta delle preferenze

DPO

/dee-pee-oh/

Tecnica di allineamento che insegna al modello a preferire una risposta migliore rispetto a una peggiore, senza usare un reward model separato come fa RLHF.

CondividiLinkedInX

In pratica

Richiede solo coppie di risposte etichettate "meglio/peggio" e una procedura di training più semplice e stabile di PPO. Negli ultimi anni ha sostituito RLHF in molti progetti open source (Zephyr, Tulu, Llama varianti). È spesso il modo più economico per allineare un modello fine-tuned.

Termini collegati

← Tutti i termini