Zephyr-7B: DPO su Mistral 7B supera Llama-2-70B-chat su MT-Bench

In una frase HuggingFace addestra Zephyr-7B con dSFT + Direct Preference Optimization su Mistral 7B base, ottenendo MT-Bench score superiore a Llama-2-70B-chat con 10x meno parametri.

Verificato Fonte ufficiale

CondividiLinkedIn X

Zephyr-7B è un modello da 7 miliardi di parametri che riesce a battere su benchmark di conversazione un modello da 70 miliardi di parametri. Come è possibile?

La chiave è il metodo di allineamento: invece di usare il classico RLHF (che richiede un reward model separato), HuggingFace ha usato Direct Preference Optimization (DPO), un algoritmo più semplice che ottimizza direttamente le preferenze umane.

Zephyr dimostra che con la tecnica giusta di allineamento, un modello piccolo ben addestrato può essere più utile di uno molto più grande allineato peggio.