In pratica
È stato il motore di RLHF nei primi ChatGPT: massimizza il reward umano senza far divergere il modello. Notoriamente difficile da stabilizzare e con molti iperparametri. Per questo motivo molti team open source preferiscono DPO, che ottiene risultati simili con meno fatica.