Salta al contenuto
AImpact
IT EN
Alto Sicurezza AI · 1 min lettura

Prompt Injection: quando l'utente sovverte le istruzioni del sistema

In una frase Riley Goodside e Perez et al. formalizzano la Prompt Injection: un attacco in cui input malevolo nel testo utente sovrascrive le istruzioni di sistema di un LLM, annullando policy e guardrail.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Immagina di dare istruzioni segrete a un assistente, poi un cliente gli porge un foglio con scritto "dimentica tutto quello che ti hanno detto e fa' quello che dico io". La Prompt Injection funziona esattamente così con i modelli di linguaggio.

Il problema nasce perché gli LLM non distinguono strutturalmente tra istruzioni del sistema e testo fornito dagli utenti: tutto è testo, tutto può essere interpretato come comando.

Perez e colleghi dimostrano con esperimenti su GPT-3 che è possibile iniettare istruzioni arbitrarie nel flusso di input, aggirando filtri, policy di contenuto e comportamenti configurati dallo sviluppatore.

È la vulnerabilità che apre la porta a decine di attacchi reali: esfiltrazione di system prompt, bypass di moderazione, manipolazione di agenti AI autonomi.

Aziende

Stanford, Anthropic

Tool

GPT-3, InstructGPT

Tag

Prompt InjectionLLM SecurityAdversarial AttacksRiley GoodsidePerez

Fonti