Salta al contenuto
AImpact
IT EN
Addestramento Intermedio Anche noto come: Reinforcement Learning from AI Feedback

RLAIF

/ar-el-ay-eye-ef/

Variante del RLHF in cui a giudicare le risposte non è un umano ma un altro modello AI, riducendo costi e tempi rispetto all'annotazione manuale.

CondividiLinkedInX

In pratica

Permette di scalare il training di allineamento su volumi molto più grandi. Anthropic lo usa per Claude in combinazione con la Constitutional AI. Il rischio è amplificare i bias del modello giudice, quindi serve comunque una supervisione umana.

Termini collegati

← Tutti i termini