In pratica
Diverso da prompt injection: qui è l'utente stesso che ci prova. Per chi offre un servizio LLM al pubblico significa pensare anche al red teaming, registrare conversazioni e usare un classificatore di sicurezza in cascata sulle risposte.
Termini collegati
Visto in azione
8 voci che lo citano- MedioPromptfoo Red Teaming: automated red-teaming open source con CI integration e benchmark comparativo
- AltoMany-Shot Jailbreaking: il safety training aggirato dalla lunghezza del contesto
- AltoHarmBench: benchmark standardizzato per valutare jailbreak e difese nei modelli AI
- MedioCrescendo: il jailbreak multi-turn che bypassa i guardrail con escalation graduale
- MedioGarak: lo scanner di vulnerabilità open source per LLM
- AltoPAIR: jailbreak automatico LLM-contro-LLM
- AltoAttacchi adversariali universali sugli LLM: jailbreak trasferibili tra GPT-4, Claude e Gemini
- MedioLakera Guard: protezione real-time per LLM in produzione