PAIR: jailbreak automatico LLM-contro-LLM

In una frase CMU e UPenn pubblicano PAIR: un LLM attaccante che affina automaticamente i propri prompt contro un LLM bersaglio, trovando jailbreak efficaci in meno di 20 tentativi senza intervento umano.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Fare un jailbreak a un AI normalmente richiedeva ore di tentativi manuali: scrivere un prompt, vedere se funzionava, correggerlo, riprovare. Come aprire una cassaforte a combinazione girando la manopola a caso.

I ricercatori di CMU e UPenn hanno automatizzato questo processo in modo elegante: invece di un umano che prova prompt a mano, usano un secondo modello linguistico come "attaccante". Questo modello riceve il feedback del bersaglio — "risposta rifiutata" o "risposta fornita" — e affina iterativamente il proprio prompt di attacco fino a trovare quello che funziona.

Il sistema si chiama PAIR (Prompt Automatic Iterative Refinement). In media trova un jailbreak efficace in meno di 20 iterazioni, anche contro modelli come GPT-3.5 e GPT-4. Non richiede accesso ai pesi del modello né alle sue rappresentazioni interne — funziona solo leggendo le risposte testuali, come farebbe un qualsiasi utente.

L'implicazione è diretta: se un umano ci metteva ore, PAIR ci mette secondi. La scala degli attacchi diventa un problema reale. Ogni sistema di sicurezza basato su filtri statici o sul presupposto che il jailbreak richieda sforzo umano è da riconsiderare.