Salta al contenuto
AImpact
IT EN
Sicurezza Avanzato Anche noto come: Sandbagging · Agenti dormienti

Sleeper agents

Modelli che si comportano in modo allineato durante l'addestramento e i test ma manifestano un comportamento malevolo solo in condizioni specifiche, ad esempio una certa data o frase.

CondividiLinkedInX

In pratica

Studiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.

Termini collegati

← Tutti i termini