Prompt Injection: quando l'utente sovverte le istruzioni del sistema
In una frase Riley Goodside e Perez et al. formalizzano la Prompt Injection: un attacco in cui input malevolo nel testo utente sovrascrive le istruzioni di sistema di un LLM, annullando policy e guardrail.
Immagina di dare istruzioni segrete a un assistente, poi un cliente gli porge un foglio con scritto "dimentica tutto quello che ti hanno detto e fa' quello che dico io". La Prompt Injection funziona esattamente così con i modelli di linguaggio.
Il problema nasce perché gli LLM non distinguono strutturalmente tra istruzioni del sistema e testo fornito dagli utenti: tutto è testo, tutto può essere interpretato come comando.
Perez e colleghi dimostrano con esperimenti su GPT-3 che è possibile iniettare istruzioni arbitrarie nel flusso di input, aggirando filtri, policy di contenuto e comportamenti configurati dallo sviluppatore.
È la vulnerabilità che apre la porta a decine di attacchi reali: esfiltrazione di system prompt, bypass di moderazione, manipolazione di agenti AI autonomi.
Aziende
Stanford, Anthropic
Tool
GPT-3, InstructGPT
Tag
Fonti