Salta al contenuto
AImpact
IT EN
Sicurezza Base Anche noto come: Aggiramento delle protezioni

Jailbreak

Tecnica con cui un utente convince il modello a ignorare le proprie regole di sicurezza, per esempio chiedendogli di fingere di essere un personaggio senza restrizioni.

CondividiLinkedInX

In pratica

Diverso da prompt injection: qui è l'utente stesso che ci prova. Per chi offre un servizio LLM al pubblico significa pensare anche al red teaming, registrare conversazioni e usare un classificatore di sicurezza in cascata sulle risposte.

Termini collegati

← Tutti i termini