Indirect Prompt Injection
L'indirect prompt injection è un attacco in cui istruzioni malevole vengono incorporate in contenuti esterni che un agente LLM leggerà: pagine web, documenti, email, risultati di database. A differenza del prompt injection diretto (dove è l'utente a fornire il contenuto malevolo), qui l'attaccante controlla l'ambiente esterno. Quando l'agente recupera ed elabora il contenuto, esegue inconsapevolmente le istruzioni nascoste come se provenissero da una fonte fidata. L'attacco è stato formalizzato per la prima volta da Greshake et al. (2023) e rappresenta una minaccia critica per i sistemi RAG e gli agenti autonomi.
In pratica
Un developer che costruisce un agente web deve sanificare ogni testo recuperato dall'esterno prima di inserirlo nel prompt. Tecniche difensive includono: prompt strutturati con delimitatori espliciti che separano dati da istruzioni, sistemi di classificazione che rilevano pattern di injection nei documenti recuperati, e principio del minimo privilegio (l'agente non dovrebbe avere accesso a tool pericolosi se il task non lo richiede). Testare sistematicamente l'agente con documenti deliberatamente avvelenati fa parte del red-teaming standard per applicazioni RAG.