In pratica
Permette di scalare il training di allineamento su volumi molto più grandi. Anthropic lo usa per Claude in combinazione con la Constitutional AI. Il rischio è amplificare i bias del modello giudice, quindi serve comunque una supervisione umana.