Constitutional Classifiers — Anthropic Difende Claude dai Jailbreak con Classifiers Esterni

Cos'è: Constitutional Classifiers è il sistema di difesa pubblicato da Anthropic a febbraio 2025: un classifier ML separato dal modello principale Claude, addestrato sui principi costituzionali, che filtra sia gli input che gli output. L'input viene scansionato prima di raggiungere il modello (blocco preventivo dei prompt malevoli); l'output viene scansionato prima di essere restituito all'utente (blocco curativo dei contenuti dannosi che il modello potrebbe aver generato). Anthropic ha accompagnato il rilascio con un bug bounty pubblico a 8 livelli di difficoltà, offrendo $20.000 al primo che riuscisse a jailbreakare il sistema. Risultato misurato: jailbreak success rate sceso dall'86% (Claude da solo) al 4.4% (Claude + classifiers).

Il problema: il "safety training" non basta da solo

Fin dalla nascita dei moderni LLM allineati (InstructGPT 2022, ChatGPT 2022, Claude 2023), la strategia di sicurezza dominante è stata addestrare il modello stesso a rifiutare richieste dannose. RLHF, Constitutional AI, DPO: tutte tecniche che modificano i pesi del modello per spostarne la distribuzione di output lontana da risposte tossiche, illegali, o pericolose. È un approccio "intrinseco": la sicurezza vive dentro il modello.

Il problema empirico è che gli attacchi adversariali — i jailbreak — sono praticamente sempre possibili. La letteratura accumulata dal 2023 mostra dozzine di tecniche che superano il safety training: roleplay manipolativi ("immagina di essere un personaggio che..."), encoding (base64, leet speak, lingue rare), prompt injection multi-turn, "many-shot jailbreaking" (riempire il contesto di esempi finti di comportamento dannoso), suffissi adversariali ottimizzati con gradiente come GCG (Greedy Coordinate Gradient, Carnegie Mellon, 2023). Lo stesso Anthropic ha pubblicato il paper "Many-Shot Jailbreaking" nell'aprile 2024 documentando questa famiglia di attacchi.

L'osservazione che motiva Constitutional Classifiers è che fare safety training più aggressivo ha rendimenti decrescenti, e produce un effetto collaterale indesiderato: il modello diventa over-refusing, rifiutando richieste innocue per eccesso di cautela. C'è bisogno di un secondo strato — esterno al modello — che possa essere più aggressivo nel filtraggio senza compromettere l'usabilità del modello base.

L'architettura: doppio classifier pre e post inferenza

Constitutional Classifiers introduce due componenti distinti. Il primo è un input classifier: un modello ML più piccolo di Claude (ordine dei miliardi di parametri, non centinaia), addestrato a classificare un prompt come "safe" o "unsafe" rispetto a una lista esplicita di categorie di danno (CBRN — chemical, biological, radiological, nuclear; cyber-attacks; child safety; ecc.). Se il classifier marca l'input come unsafe, il prompt non raggiunge mai Claude: l'utente riceve un rifiuto generato dal sistema, non dal modello.

Il secondo è un output classifier: un modello simile, addestrato a classificare un output (potenzialmente parziale) come safe o unsafe. Funziona in streaming durante la generazione di Claude: man mano che i token vengono prodotti, l'output classifier li valuta. Se a un certo punto il rischio supera una soglia, la generazione viene interrotta e l'output viene sostituito da un rifiuto. Questo serve a catturare i casi in cui il prompt sembrava innocuo (passa l'input classifier) ma l'output di Claude finisce comunque in territorio dannoso (per errore del modello, per ambiguità del prompt, o per attacco multi-turn).

I due classifiers sono addestrati con dati sintetici generati da una "costituzione": una specifica esplicita in linguaggio naturale di cosa è permesso e cosa no, con esempi. La costituzione è derivata dalla Acceptable Use Policy di Anthropic e dai principi di Constitutional AI usati per Claude stesso. Generare dati sintetici via LLM permette di coprire un ventaglio molto ampio di scenari, incluse varianti di attacchi noti.

Il bug bounty pubblico: 8 livelli, $20.000 al primo full jailbreak

Anthropic ha accompagnato il paper con un programma di bug bounty inusuale per scala e trasparenza. Il sistema è stato esposto pubblicamente attraverso un'interfaccia dedicata: chiunque poteva tentare di farlo cedere a otto livelli progressivi di difficoltà, ognuno corrispondente a una richiesta dannosa di gravità crescente (dal generare informazioni vagamente problematiche al fornire istruzioni dettagliate su armi CBRN). Premio per il primo "full jailbreak" (superare tutti gli 8 livelli con un singolo metodo universale): $20.000. Premi minori per jailbreak parziali.

Durante le prime settimane circa 185 ricercatori hanno tentato. Oltre 3.000 ore-uomo di attacchi accumulate. Nessuno ha raggiunto il full jailbreak universale durante la finestra del programma. Sono stati trovati jailbreak parziali — singoli livelli superati con tecniche specifiche — ma nessun metodo singolo riusciva ad attraversare tutto lo stack di otto categorie. Questo è significativo perché significa che, contro avversari motivati e con strumenti adeguati, il sistema regge.

I numeri quantitativi pubblicati: senza classifiers, l'attaccante umano medio riesce in 86% dei tentativi su almeno un livello. Con Constitutional Classifiers attivati, il tasso scende al 4.4%. La latenza aggiunta dal doppio classifier è circa 100-300 ms in media (variabile in funzione della lunghezza dell'output). Il tasso di falsi positivi su richieste innocue è circa 0.4%, un ordine di grandezza più basso rispetto a sistemi che fanno safety solo via training.

Defense in depth: il modello mentale che cambia

Il punto strategico di Constitutional Classifiers è il modello mentale che propone. Per la prima volta un laboratorio di frontiera dichiara esplicitamente che il safety dentro il modello non è sufficiente, e che la difesa deve essere stratificata. La metafora di sicurezza informatica è "defense in depth": più livelli indipendenti, ciascuno con probabilità di fallimento bassa ma non zero, che insieme producono un sistema con probabilità di fallimento molto bassa. Se il modello fallisce nel rifiutare (probabilità p1), il classifier di output deve fallire nel catturare (probabilità p2), e la probabilità congiunta è p1*p2, molto più piccola.

C'è un confronto interessante con altri laboratori. OpenAI usa system prompt injection (istruzioni nascoste prepended al prompt dell'utente) come meccanismo di sicurezza esterno al modello, ma è una difesa più fragile: vive nel contesto del modello stesso, e attacchi di prompt injection possono sovrascriverla. Constitutional Classifiers vive fuori dal modello, in modelli separati con pesi distinti che non vedono mai il system prompt: un attaccante non può "convincere" il classifier a ignorarsi.

I trade-off rimangono: latenza aggiuntiva, costo di compute per i due classifiers (anche se piccoli rispetto a Claude), maintenance overhead (i classifiers vanno aggiornati man mano che emergono nuovi attacchi e nuove categorie di rischio), e il tasso di falsi positivi che, pur basso, esiste. Anthropic ha pubblicato i risultati in modo che altri laboratori possano replicare l'approccio: il paper è un invito a normalizzare il pattern, non un vantaggio competitivo da proteggere.

Link alla fonte originale

anthropic.com/research/constitutional-classifiers →

Pubblicazione Anthropic Research, febbraio 2025, con paper tecnico associato su arXiv. Bug bounty pubblico documentato sul sito Anthropic. Il sistema è stato attivato in produzione per Claude 3.5 Sonnet e successivi nei mesi precedenti la pubblicazione.