Addestramento Intermedio Anche noto come: Reinforcement Learning from Human Feedback
RLHF
/ar-el-aitch-ef/
Tecnica di addestramento in cui umani valutano e classificano le risposte del modello, e queste preferenze vengono usate per guidare l'apprendimento verso risposte più utili e sicure.
In pratica
È il passaggio che ha reso ChatGPT utile rispetto a un modello solo predittivo. Per chi usa LLM via API il RLHF è già stato fatto dal fornitore. Conoscerlo aiuta a capire perché modelli più 'allineati' a volte rifiutano richieste lecite.
Termini collegati
Visto in azione
5 voci che lo citano- AltoZephyr-7B: DPO su Mistral 7B supera Llama-2-70B-chat su MT-Bench
- Pietra miliareLlama 2: i pesi diventano commercialmente usabili
- Pietra miliareChatGPT: l'AI entra nei browser di tutti
- AltoInstructGPT: il fine-tuning che insegna a GPT a obbedire
- AltoWebGPT: OpenAI insegna a GPT-3 a navigare il web