Salta al contenuto
AImpact
IT EN
Medio Sicurezza AI · 1 min lettura

Constitutional AI: il modello si autocorregge senza umani nel loop

In una frase Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Allineare un modello AI richiede tantissime persone che gli dicano "questa risposta è buona, questa no". È costoso, lento, e dipende dalle opinioni dei singoli annotatori.

Anthropic propone un'alternativa: scrivi una "costituzione" — un elenco di principi tipo "non aiutare a fare male agli altri", "sii utile e onesto" — e fai sì che il modello critichi le proprie risposte da solo, riscrivendole finché rispettano i principi.

Il vantaggio non è solo costo: i principi sono scritti, leggibili, modificabili. Diventa più facile capire perché il modello rifiuta o accetta una richiesta.

Aziende

Anthropic

Tool

Claude

Tag

AnthropicConstitutional AIRLAIFAlignmentSafety

Fonti