Rebuff: difesa a tre livelli dalla prompt injection con canary token

In una frase Rebuff è un framework open source di ProtectAI per difendersi dalla prompt injection con tre layer difensivi: heuristics veloci, LLM check semantico, e canary token per rilevare esfiltrazione.

Verificato Fonte ufficiale

CondividiLinkedIn X

Difendersi dalla prompt injection è difficile perché non esiste un filtro perfetto. Rebuff adotta un approccio a strati: più livelli di difesa con caratteristiche diverse, così che aggirarne uno non significa automaticamente aggirare tutti gli altri.

Il primo livello usa regole veloci ed euristiche per bloccare i pattern di injection più comuni con latenza minima. Il secondo livello usa un LLM per valutare semanticamente se il testo contiene un tentativo di manipolazione. Il terzo livello inserisce nel prompt un "canary token" segreto: se appare nell'output del modello, significa che un attacco ha avuto successo nell'esfiltrare informazioni dal contesto.

Questo terzo livello è particolarmente interessante perché non cerca di prevenire l'attacco ma di rilevarlo quando avviene, permettendo di rispondere e di raccogliere telemetria per migliorare le difese.