Sicurezza Intermedio Anche noto come: Esempio avversariale

Adversarial example

Input modificato in modo impercettibile per un umano ma costruito per ingannare un modello e fargli produrre un output sbagliato o pericoloso.

CondividiLinkedIn X

In pratica

Nato nella visione (qualche pixel cambiato fa scambiare un panda per un gibbone), oggi colpisce anche gli LLM con suffissi di caratteri strani che sbloccano comportamenti vietati. È una vulnerabilità intrinseca alle reti neurali.

Termini collegati

Prompt injection Jailbreak Red teaming

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini