Sicurezza Base Anche noto come: Aggiramento delle protezioni

Jailbreak

Tecnica con cui un utente convince il modello a ignorare le proprie regole di sicurezza, per esempio chiedendogli di fingere di essere un personaggio senza restrizioni.

CondividiLinkedIn X

In pratica

Diverso da prompt injection: qui è l'utente stesso che ci prova. Per chi offre un servizio LLM al pubblico significa pensare anche al red teaming, registrare conversazioni e usare un classificatore di sicurezza in cascata sulle risposte.

Termini collegati

Prompt injection Alignment Red teaming

Visto in azione

8 voci che lo citano

11 agosto 2024

Promptfoo Red Teaming: automated red-teaming open source con CI integration e benchmark comparativo

Medio
17 aprile 2024

Many-Shot Jailbreaking: il safety training aggirato dalla lunghezza del contesto

Alto
20 marzo 2024

HarmBench: benchmark standardizzato per valutare jailbreak e difese nei modelli AI

Alto
28 febbraio 2024

Crescendo: il jailbreak multi-turn che bypassa i guardrail con escalation graduale

Medio
12 gennaio 2024

Garak: lo scanner di vulnerabilità open source per LLM

Medio
27 settembre 2023

PAIR: jailbreak automatico LLM-contro-LLM

Alto
10 luglio 2023

Attacchi adversariali universali sugli LLM: jailbreak trasferibili tra GPT-4, Claude e Gemini

Alto
20 giugno 2023

Lakera Guard: protezione real-time per LLM in produzione

Medio

← Tutti i termini