Sicurezza Intermedio Anche noto come: Many-Shot Attack · Long Context Jailbreak

Many-Shot Jailbreaking

Il many-shot jailbreaking è una tecnica di attacco che sfrutta le finestre di contesto lunghe anteponendo 100-256 o più coppie fittizie di domanda-risposta dannose prima della richiesta malevola effettiva. Gli esempi in-context sovrascrivono l'addestramento alla sicurezza inducendo il modello a seguire il pattern dimostrato piuttosto che le sue guardrail. L'efficacia scala con la lunghezza del contesto: i modelli con finestre più grandi risultano più vulnerabili. L'attacco è stato divulgato da Anthropic nel 2024 e ha portato a revisioni nei meccanismi di safety per i modelli con contesti molto lunghi.

CondividiLinkedIn X

In pratica

Dal punto di vista difensivo, un developer che valuta la robustezza di un modello deployato dovrebbe includere test many-shot nel proprio red-teaming: costruire un prompt con 200+ esempi di Q&A malevoli e misurare il tasso di compliance del modello. Per mitigare il rischio in produzione, si possono applicare finestre di contesto artificialmente limitate per certi task, classifier sul contenuto in input che rilevano pattern di Q&A ripetuti con tematiche rischiose, o sistemi di logging che segnalano prompt insolitamente lunghi.

Termini collegati

Jailbreak Context window Few-shot learning Prompt injection

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini