Addestramento Intermedio Anche noto come: Direct Preference Optimization · Ottimizzazione diretta delle preferenze

DPO

/dee-pee-oh/

Tecnica di allineamento che insegna al modello a preferire una risposta migliore rispetto a una peggiore, senza usare un reward model separato come fa RLHF.

CondividiLinkedIn X

In pratica

Richiede solo coppie di risposte etichettate "meglio/peggio" e una procedura di training più semplice e stabile di PPO. Negli ultimi anni ha sostituito RLHF in molti progetti open source (Zephyr, Tulu, Llama varianti). È spesso il modo più economico per allineare un modello fine-tuned.

Termini collegati

RLHF PPO SFT Alignment Fine-tuning

Visto in azione

3 voci che lo citano

21 novembre 2024

Tülu 3 di Allen AI: il primo post-training pipeline completamente aperto

Medio
25 ottobre 2023

Zephyr-7B: DPO su Mistral 7B supera Llama-2-70B-chat su MT-Bench

Alto
27 settembre 2022

Hugging Face Inference Endpoints: deploy LLM in due click

Medio

← Tutti i termini