HarmBench: benchmark standardizzato per valutare jailbreak e difese nei modelli AI

In una frase L'UCSB pubblica HarmBench: 400+ comportamenti dannosi, 18 metodi di attacco, 33 modelli testati. Primo framework che consente il confronto apples-to-apples tra metodi di sicurezza. Rivela che la maggior parte del safety fine-tuning è facilmente aggirata.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Come fai a sapere se un modello AI è davvero sicuro contro i jailbreak? Prima di HarmBench, la risposta onesta era: non puoi confrontare in modo affidabile. Ogni ricerca usava i propri test, i propri criteri di successo e i propri modelli. Era come confrontare atleti di discipline diverse senza mai usare la stessa pista.

HarmBench, sviluppato dai ricercatori dell'University of California Santa Barbara, ha creato il primo terreno di gioco standardizzato per questo problema. Ha definito un insieme di oltre 400 comportamenti dannosi suddivisi in categorie — armi, cyberattacchi, contenuti illegali, manipolazione — e ha testato 18 diversi metodi di attacco su 33 modelli diversi.

Il risultato ha fatto discutere: quasi tutti i modelli testati, inclusi quelli con safety training avanzato, erano vulnerabili ad almeno alcuni dei metodi di attacco. In molti casi, tecniche sofisticate come GCG (Greedy Coordinate Gradient) o PAIR riuscivano ad aggirare le protezioni in modo sistematico.

HarmBench non è uno strumento per fare del male — è uno strumento per misurare la sicurezza in modo riproducibile. Come i crash test per le automobili: ti dicono quanto è robusto il sistema prima che cada nelle mani di qualcuno che vuole usarlo male.