Many-Shot Jailbreaking
Il many-shot jailbreaking è una tecnica di attacco che sfrutta le finestre di contesto lunghe anteponendo 100-256 o più coppie fittizie di domanda-risposta dannose prima della richiesta malevola effettiva. Gli esempi in-context sovrascrivono l'addestramento alla sicurezza inducendo il modello a seguire il pattern dimostrato piuttosto che le sue guardrail. L'efficacia scala con la lunghezza del contesto: i modelli con finestre più grandi risultano più vulnerabili. L'attacco è stato divulgato da Anthropic nel 2024 e ha portato a revisioni nei meccanismi di safety per i modelli con contesti molto lunghi.
In pratica
Dal punto di vista difensivo, un developer che valuta la robustezza di un modello deployato dovrebbe includere test many-shot nel proprio red-teaming: costruire un prompt con 200+ esempi di Q&A malevoli e misurare il tasso di compliance del modello. Per mitigare il rischio in produzione, si possono applicare finestre di contesto artificialmente limitate per certi task, classifier sul contenuto in input che rilevano pattern di Q&A ripetuti con tematiche rischiose, o sistemi di logging che segnalano prompt insolitamente lunghi.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.