Constitutional AI — Anthropic e l'Addestramento con Principi

Chi è / Cos'è: Constitutional AI è il metodo di addestramento sviluppato da Anthropic e descritto nel paper di Yuntao Bai, Andy Jones, Kamal Ndousse e altri ricercatori, pubblicato su ArXiv nel dicembre 2022. È la base dell'addestramento di Claude, l'assistente AI di Anthropic. Il paper propone di ridurre la dipendenza dal feedback umano durante il fine-tuning usando il modello stesso come valutatore, guidato da un insieme esplicito di principi etici.

Il problema con RLHF

Il Reinforcement Learning from Human Feedback (RLHF), introdotto da OpenAI e alla base di InstructGPT e ChatGPT, funziona così: si genera output dal modello, si chiede a valutatori umani di classificare quale risposta è migliore, si addestra un reward model su queste classificazioni, si usa il reward model per fare reinforcement learning sul LLM principale.

Il limite è la scala: addestrare un sistema RLHF richiede decine di migliaia di confronti valutati da persone. Per ogni comportamento da correggere, per ogni nuova capability da allineare, servono nuovi dati umani. Il costo è alto, il processo è lento, e i valutatori umani portano i propri bias e inconsistenze. La scalabilità è limitata dalla velocità con cui si può raccogliere feedback di qualità.

La proposta: una costituzione

Constitutional AI sostituisce una parte del feedback umano con autocritica guidata da principi. Il processo si svolge in due fasi distinte.

Fase 1: Supervised Learning con critique-revision

Si parte da un modello di partenza (helpful RLHF model) e si genera output su prompt potenzialmente problematici. Per ogni output, si chiede al modello stesso di:

Identificare problemi nella risposta rispetto a uno dei principi della costituzione
Riscrivere la risposta per eliminare il problema identificato

La critica e la revisione vengono generate iterativamente. Il dataset risultante — prompt originali + risposte riviste — viene usato per supervised fine-tuning. Il modello impara a produrre direttamente risposte conformi ai principi, senza dover passare per il ciclo critica-revisione a ogni inferenza.

Fase 2: RLAIF — Reinforcement Learning from AI Feedback

Invece di chiedere a valutatori umani di scegliere tra due risposte, si chiede al modello stesso di valutare quale delle due risposte è più conforme ai principi della costituzione. Queste preferenze AI vengono usate per addestrare il reward model, che guida poi il reinforcement learning.

Il termine coniato nel paper è RLAIF (Reinforcement Learning from AI Feedback), in contrasto con RLHF. Il feedback umano non sparisce del tutto — viene usato per il fine-tuning iniziale e per calibrare il modello valutatore — ma la dipendenza si riduce drasticamente.

La costituzione: quali principi

La costituzione usata nel paper include principi estratti da più fonti:

La Dichiarazione Universale dei Diritti Umani delle Nazioni Unite
I principi di non-dano (non uccidere, non danneggiare) dalla tradizione filosofica
Linee guida per la sicurezza AI di Anthropic stessa
Principi HHH: Helpful (utile all'utente), Harmless (non causa danni), Honest (non inganna)

Non tutti i principi sono ugualmente prioritari. La costituzione include anche meta-principi su come bilanciare principi in conflitto. Ad esempio: se un'istruzione è utile all'utente ma potenzialmente dannosa per terzi, harmless ha priorità su helpful.

I risultati empirici

Il paper confronta modelli addestrati con CAI contro modelli addestrati con RLHF standard su due dimensioni: helpfulness (utilità delle risposte) e harmlessness (assenza di contenuti dannosi). I valutatori umani sono usati per valutare i modelli finali, non per addestrarli.

Il modello CAI ottiene punteggi di harmlessness comparabili o superiori al modello RLHF con meno supervisione umana diretta. In particolare, il modello riduce i falsi negativi (risposte utili rifiutate erroneamente per eccessiva cautela) rispetto a versioni altamente penalizzate sulla harmlessness.

Il paper introduce anche la distinzione tra un modello "SL-CAI" (solo supervised learning con critique-revision) e un "RL-CAI" (con la fase RLAIF aggiunta). Il modello RL-CAI performa meglio di entrambi su harmlessness mantenendo helpfulness comparabile.

La critica principale: chi scrive la costituzione?

Il metodo CAI è trasparente su un punto: i valori incorporati nel modello dipendono direttamente dai principi scritti nella costituzione. E la costituzione viene scritta da Anthropic. Questo sposta il problema del value alignment dal processo di raccolta del feedback al processo di redazione dei principi.

Chi decide cosa va nella costituzione? Con quale processo? Chi è rappresentato? Il paper riconosce questa tensione e non la risolve. Anthropic ha pubblicato parzialmente la costituzione usata per Claude, ma il processo di revisione e aggiornamento non è completamente trasparente.

La critica speculare viene dall'altro versante: una costituzione scritta da un'azienda privata con incentivi commerciali potrebbe essere sistematicamente troppo conservativa su certi argomenti (quelli che creano rischio legale o reputazionale) e troppo permissiva su altri (quelli che aumentano l'utilità commerciale del prodotto).

Impatto e sviluppi successivi

Constitutional AI è diventato uno dei metodi di riferimento per il alignment dei LLM commerciali. Il concetto di RLAIF è stato adottato e esteso da altri ricercatori. Varianti del metodo appaiono in RLHF con critiche automatiche (Google DeepMind), in Direct Preference Optimization (DPO, Rafailov et al., 2023) che elimina il reward model esplicito, e nei vari framework di self-critique usati per ridurre errori fattuali.

L'idea centrale — usare il modello per valutare se stesso contro criteri espliciti — è ora standard in molti pipeline di post-training. La novità di CAI era renderlo sistematico e pubblicarne i dettagli.

Link alla fonte originale

arxiv.org/abs/2212.08073 →

Paper in inglese, 51 pagine, preprint ArXiv dicembre 2022. Accesso gratuito. Anthropic ha pubblicato separatamente la costituzione pubblica usata per Claude su anthropic.com/index/claudes-constitution.