Constitutional AI: il modello si autocorregge senza umani nel loop
In una frase Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.
Allineare un modello AI richiede tantissime persone che gli dicano "questa risposta è buona, questa no". È costoso, lento, e dipende dalle opinioni dei singoli annotatori.
Anthropic propone un'alternativa: scrivi una "costituzione" — un elenco di principi tipo "non aiutare a fare male agli altri", "sii utile e onesto" — e fai sì che il modello critichi le proprie risposte da solo, riscrivendole finché rispettano i principi.
Il vantaggio non è solo costo: i principi sono scritti, leggibili, modificabili. Diventa più facile capire perché il modello rifiuta o accetta una richiesta.
Aziende
Anthropic
Tool
Claude
Tag
Fonti