Addestramento Intermedio Anche noto come: Direct Preference Optimization · Ottimizzazione diretta delle preferenze
DPO
/dee-pee-oh/
Tecnica di allineamento che insegna al modello a preferire una risposta migliore rispetto a una peggiore, senza usare un reward model separato come fa RLHF.
In pratica
Richiede solo coppie di risposte etichettate "meglio/peggio" e una procedura di training più semplice e stabile di PPO. Negli ultimi anni ha sostituito RLHF in molti progetti open source (Zephyr, Tulu, Llama varianti). È spesso il modo più economico per allineare un modello fine-tuned.