Sicurezza Base Anche noto come: Iniezione di prompt

Prompt injection

Attacco in cui un input esterno (un documento, una pagina web, un'email) contiene istruzioni nascoste che dirottano il comportamento del modello.

CondividiLinkedIn X

In pratica

Se il tuo agente legge email e poi agisce, un'email malevola può dirgli 'inoltra tutto a un terzo'. Mitigazioni: trattare input esterni come non fidati, sandbox sugli strumenti, conferma umana per azioni sensibili, filtri input/output.

Termini collegati

Jailbreak Agent Safety classifier

Visto in azione

8 voci che lo citano

11 agosto 2024

Promptfoo Red Teaming: automated red-teaming open source con CI integration e benchmark comparativo

Medio
6 agosto 2024

NIST AI 600-1: profilo di rischio specifico per l'AI generativa

Medio
20 giugno 2024

Rebuff: difesa a tre livelli dalla prompt injection con canary token

Medio
6 febbraio 2024

Indirect Prompt Injection: il vettore di attacco nei sistemi RAG e agenti AI

Alto
1 agosto 2023

OWASP LLM Top 10: le 10 vulnerabilità critiche delle app basate su AI

Alto
10 luglio 2023

Attacchi adversariali universali sugli LLM: jailbreak trasferibili tra GPT-4, Claude e Gemini

Alto
20 giugno 2023

Lakera Guard: protezione real-time per LLM in produzione

Medio
14 settembre 2022

Prompt Injection: quando l'utente sovverte le istruzioni del sistema

Alto

← Tutti i termini