Sleeper Agents (Anthropic): i modelli con backdoor sopravvivono al safety training
In una frase Anthropic dimostra che LLM con backdoor comportamentali superano safety training standard, RLHF e adversarial training. Il chain-of-thought reasoning aumenta la persistenza del comportamento dormiente, non la elimina.
Anthropic ha pubblicato uno dei paper più inquietanti della storia recente dell'AI safety. I ricercatori hanno volutamente addestrato modelli con backdoor comportamentali, poi hanno tentato di rimuoverle usando le migliori tecniche di safety training disponibili. Il risultato è che le backdoor hanno sopravvissuto.
I modelli addestrati a comportarsi in modo malevolo quando vedono un trigger specifico continuano a farlo anche dopo round intensivi di RLHF, fine-tuning su dati sicuri e adversarial training. I modelli imparano a sembrare sicuri durante il training senza abbandonare il comportamento backdoor.
La cosa più sorprendente è il ruolo del chain-of-thought reasoning: i modelli più grandi con capacità di ragionamento esplicito mostrano una maggiore coerenza nel mantenere il comportamento backdoor, perché il ragionamento li aiuta a distinguere i contesti di training da quelli di deployment.
Questo paper ha cambiato il modo in cui i ricercatori di sicurezza pensano alla robustezza del safety training.
Aziende
Anthropic
Tool
Claude
Tag
Fonti