Addestramento Intermedio Anche noto come: Reinforcement Learning from AI Feedback

RLAIF

/ar-el-ay-eye-ef/

Variante del RLHF in cui a giudicare le risposte non è un umano ma un altro modello AI, riducendo costi e tempi rispetto all'annotazione manuale.

CondividiLinkedIn X

In pratica

Permette di scalare il training di allineamento su volumi molto più grandi. Anthropic lo usa per Claude in combinazione con la Constitutional AI. Il rischio è amplificare i bias del modello giudice, quindi serve comunque una supervisione umana.

Termini collegati

RLHF Constitutional AI Alignment

Visto in azione

1 voci che lo citano

15 dicembre 2022

Constitutional AI: il modello si autocorregge senza umani nel loop

Medio

← Tutti i termini