Many-Shot Jailbreaking: il safety training aggirato dalla lunghezza del contesto

In una frase Anthropic pubblica la ricerca sul many-shot jailbreaking: fornire 256+ coppie Q&A false e dannose nel context window aggira gradualmente il safety training. La vulnerabilità scala con la lunghezza del contesto. Rivelato responsabilmente, ha provocato aggiornamenti di sicurezza in tutti i principali provider.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

I modelli AI vengono addestrati a rifiutare richieste dannose. Ma Anthropic ha scoperto un modo inaspettato per far dimenticare ai modelli queste regole: riempire il contesto di esempi falsi.

Immagina di chiedere a qualcuno una cosa inappropriata. Rifiuta. Ma cosa succede se prima gli mostri 300 esempi di conversazioni (tutte false) in cui qualcuno ha fatto la stessa domanda inappropriata e ha ricevuto risposta? In alcuni casi, il modello inizia a comportarsi come se rispondere fosse normale.

Questo è il many-shot jailbreaking. Più esempi metti nel contesto — spesso chiamati "shot" — più alta è la probabilità che il modello ignori il suo addestramento e risponda alla richiesta dannosa. La tecnica scala: con 256 esempi si ottengono risultati significativamente migliori rispetto a 64.

Il problema diventa più rilevante man mano che i modelli supportano finestre di contesto sempre più lunghe — da 8.000 token a 100.000, a 1 milione. Più lungo il contesto, più "shot" si possono inserire, e più forte diventa l'attacco. Anthropic ha pubblicato questa ricerca in modo responsabile e ha collaborato con altri provider per sviluppare contromisure.