Constitutional AI: il modello si autocorregge senza umani nel loop

In una frase Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.

Verificato Fonte ufficiale

CondividiLinkedIn X

Allineare un modello AI richiede tantissime persone che gli dicano "questa risposta è buona, questa no". È costoso, lento, e dipende dalle opinioni dei singoli annotatori.

Anthropic propone un'alternativa: scrivi una "costituzione" — un elenco di principi tipo "non aiutare a fare male agli altri", "sii utile e onesto" — e fai sì che il modello critichi le proprie risposte da solo, riscrivendole finché rispettano i principi.

Il vantaggio non è solo costo: i principi sono scritti, leggibili, modificabili. Diventa più facile capire perché il modello rifiuta o accetta una richiesta.