CyberSecEval 2: benchmark Meta per la sicurezza degli LLM
In una frase Meta pubblica CyberSecEval 2: 7000+ test case per valutare la sicurezza degli LLM su generazione di codice insicuro, assistenza a cyberattacchi, prompt injection e sfruttamento di vulnerabilità. Abilita confronto quantitativo della postura di sicurezza tra modelli.
Come misuri se un modello AI è più o meno pericoloso dal punto di vista della sicurezza informatica? Non basta chiedere "scrivi del malware" e vedere se rifiuta. I rischi reali sono più sottili: il modello aiuta a trovare vulnerabilità nei software? Genera codice con falle di sicurezza senza avvertirti? Si lascia ingannare per eseguire comandi pericolosi?
Meta ha sviluppato CyberSecEval per rispondere a queste domande in modo sistematico. La seconda versione, pubblicata nel 2024, copre oltre 7.000 scenari di test in diverse aree di sicurezza: generazione di codice insicuro (buffer overflow, SQL injection, autenticazione debole), assistenza ad attacchi informatici, resistenza al prompt injection, e capacità di sfruttare vulnerabilità note.
Il benchmark è stato usato per testare i propri modelli Llama ma è completamente open-source: chiunque può usarlo per valutare qualsiasi modello. I risultati hanno mostrato differenze significative tra modelli nella probabilità di generare codice con falle di sicurezza — un rischio concreto per i milioni di sviluppatori che usano AI per scrivere codice.
CyberSecEval è diventato parte del progetto Purple Llama di Meta, un ecosistema di tool open-source per la sicurezza responsabile dei modelli AI.
Aziende
Meta
Tool
—
Tag
Fonti