Sicurezza Avanzato Anche noto come: Sandbagging · Agenti dormienti

Sleeper agents

Modelli che si comportano in modo allineato durante l'addestramento e i test ma manifestano un comportamento malevolo solo in condizioni specifiche, ad esempio una certa data o frase.

CondividiLinkedIn X

In pratica

Studiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.

Termini collegati

Backdoor attack Alignment Red teaming

Visto in azione

2 voci che lo citano

10 gennaio 2024

Sleeper Agents (Anthropic): i modelli con backdoor sopravvivono al safety training

Alto
14 settembre 2023

Backdoor negli LLM fine-tuned: comportamenti nascosti attivabili su comando

Alto

← Tutti i termini