Crescendo: il jailbreak multi-turn che bypassa i guardrail con escalation graduale
In una frase Microsoft scopre che una sequenza di richieste innocue, ciascuna che sposta leggermente i confini del precedente turno, porta GPT-4 e Claude a produrre output che una singola richiesta diretta non otterrebbe mai.
I guardrail dei modelli linguistici sono addestrati a riconoscere e bloccare richieste esplicitamente pericolose. Ma cosa succede quando nessuna singola richiesta è pericolosa da sola?
La tecnica Crescendo, sviluppata da ricercatori Microsoft, costruisce una conversazione multi-turno in cui ogni messaggio è innocuo e plausibile nel contesto stabilito dai messaggi precedenti. Lentamente, la conversazione viene guidata verso territori che il modello non avrebbe mai esplorato se la destinazione finale fosse stata richiesta direttamente.
È l'equivalente conversazionale della rana nella pentola: nessun singolo passo supera la soglia di allarme del modello, ma la somma dei passi porta a un output che violerebbe chiaramente le policy se richiesto direttamente.
L'attacco funziona su GPT-4 e Claude, due dei modelli con i guardrail più sofisticati disponibili, dimostrando che il problema è strutturale nei modelli stateless che valutano ogni turno nel contesto locale.
Aziende
Microsoft
Tool
Crescendo
Tag
Fonti