Prompt Injection: quando l'utente sovverte le istruzioni del sistema

In una frase Riley Goodside e Perez et al. formalizzano la Prompt Injection: un attacco in cui input malevolo nel testo utente sovrascrive le istruzioni di sistema di un LLM, annullando policy e guardrail.

Verificato Fonte ufficiale

CondividiLinkedIn X

Immagina di dare istruzioni segrete a un assistente, poi un cliente gli porge un foglio con scritto "dimentica tutto quello che ti hanno detto e fa' quello che dico io". La Prompt Injection funziona esattamente così con i modelli di linguaggio.

Il problema nasce perché gli LLM non distinguono strutturalmente tra istruzioni del sistema e testo fornito dagli utenti: tutto è testo, tutto può essere interpretato come comando.

Perez e colleghi dimostrano con esperimenti su GPT-3 che è possibile iniettare istruzioni arbitrarie nel flusso di input, aggirando filtri, policy di contenuto e comportamenti configurati dallo sviluppatore.

È la vulnerabilità che apre la porta a decine di attacchi reali: esfiltrazione di system prompt, bypass di moderazione, manipolazione di agenti AI autonomi.