Attacchi adversariali universali sugli LLM: jailbreak trasferibili tra GPT-4, Claude e Gemini

In una frase Zou et al. (CMU) dimostrano suffix ottimizzati che jailbreakano simultaneamente GPT-3.5/4, Claude e Gemini: prima prova sistematica di trasferibilità degli attacchi tra modelli diversi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Tutti i grandi modelli di linguaggio hanno filtri di sicurezza che impediscono loro di rispondere a richieste pericolose. Fino al 2023 si pensava che questi filtri fossero abbastanza robusti per resistere ad attacchi sistematici.

Il team della CMU ha scoperto che aggiungendo una stringa di testo apparentemente casuale alla fine di una richiesta malevola, è possibile far ignorare i filtri a praticamente qualsiasi LLM. La stringa viene trovata tramite ottimizzazione automatica su modelli open source come Vicuna.

La scoperta più inquietante è la trasferibilità: un suffix ottimizzato su Vicuna funziona anche su GPT-4, Claude e Gemini, modelli che il ricercatore non ha mai visto durante l'ottimizzazione. Questo significa che l'attacco è strutturale, non legato a una specifica debolezza di un modello.

Il paper ha costretto tutti i lab AI a rivalutare le proprie assunzioni sulla robustezza dei safety training.