Red Teaming LLM con altri LLM: il paper DeepMind che ha cambiato l'approccio alla sicurezza

In una frase Perez et al. (DeepMind) dimostrano che un LLM può essere usato come attacker automatico contro un altro LLM, scoprendo comportamenti indesiderati su scala impossibile per i team umani.

Verificato Fonte ufficiale

CondividiLinkedIn X

Il red teaming tradizionale richiede esperti umani che passano settimane a costruire prompt malevoli per testare un sistema. Con modelli da miliardi di parametri e miliardi di possibili input, questo approccio non scala.

Il paper di Perez e colleghi di DeepMind propone una soluzione elegante: usare un LLM appositamente addestrato come "attacker" automatico che genera migliaia di casi di test per trovare comportamenti problematici in un LLM "target".

L'attacker impara a costruire prompt che massimizzano la probabilità di far produrre al target output tossici, offensivi o contrari alle policy. Il risultato è un sistema capace di trovare failure modes che i tester umani non avrebbero mai identificato manualmente.

Questo approccio ha aperto la strada a tutta la ricerca successiva sull'automated red teaming e rimane il paper fondante del campo.