Sicurezza Intermedio Anche noto come: Indirect Injection · Environment Injection

Indirect Prompt Injection

L'indirect prompt injection è un attacco in cui istruzioni malevole vengono incorporate in contenuti esterni che un agente LLM leggerà: pagine web, documenti, email, risultati di database. A differenza del prompt injection diretto (dove è l'utente a fornire il contenuto malevolo), qui l'attaccante controlla l'ambiente esterno. Quando l'agente recupera ed elabora il contenuto, esegue inconsapevolmente le istruzioni nascoste come se provenissero da una fonte fidata. L'attacco è stato formalizzato per la prima volta da Greshake et al. (2023) e rappresenta una minaccia critica per i sistemi RAG e gli agenti autonomi.

CondividiLinkedIn X

In pratica

Un developer che costruisce un agente web deve sanificare ogni testo recuperato dall'esterno prima di inserirlo nel prompt. Tecniche difensive includono: prompt strutturati con delimitatori espliciti che separano dati da istruzioni, sistemi di classificazione che rilevano pattern di injection nei documenti recuperati, e principio del minimo privilegio (l'agente non dovrebbe avere accesso a tool pericolosi se il task non lo richiede). Testare sistematicamente l'agente con documenti deliberatamente avvelenati fa parte del red-teaming standard per applicazioni RAG.

Termini collegati

Prompt injection RAG Agent Red teaming Sleeper agents

Visto in azione

1 voci che lo citano

6 febbraio 2024

Indirect Prompt Injection: il vettore di attacco nei sistemi RAG e agenti AI

Alto

← Tutti i termini