In pratica
Studiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.
Studiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.