CyberSecEval 2: benchmark Meta per la sicurezza degli LLM

In una frase Meta pubblica CyberSecEval 2: 7000+ test case per valutare la sicurezza degli LLM su generazione di codice insicuro, assistenza a cyberattacchi, prompt injection e sfruttamento di vulnerabilità. Abilita confronto quantitativo della postura di sicurezza tra modelli.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Come misuri se un modello AI è più o meno pericoloso dal punto di vista della sicurezza informatica? Non basta chiedere "scrivi del malware" e vedere se rifiuta. I rischi reali sono più sottili: il modello aiuta a trovare vulnerabilità nei software? Genera codice con falle di sicurezza senza avvertirti? Si lascia ingannare per eseguire comandi pericolosi?

Meta ha sviluppato CyberSecEval per rispondere a queste domande in modo sistematico. La seconda versione, pubblicata nel 2024, copre oltre 7.000 scenari di test in diverse aree di sicurezza: generazione di codice insicuro (buffer overflow, SQL injection, autenticazione debole), assistenza ad attacchi informatici, resistenza al prompt injection, e capacità di sfruttare vulnerabilità note.

Il benchmark è stato usato per testare i propri modelli Llama ma è completamente open-source: chiunque può usarlo per valutare qualsiasi modello. I risultati hanno mostrato differenze significative tra modelli nella probabilità di generare codice con falle di sicurezza — un rischio concreto per i milioni di sviluppatori che usano AI per scrivere codice.

CyberSecEval è diventato parte del progetto Purple Llama di Meta, un ecosistema di tool open-source per la sicurezza responsabile dei modelli AI.