CAIS Dangerous Capabilities Evaluations: il framework standard per misurare le capacità pericolose degli LLM

In una frase Il Center for AI Safety pubblica un framework strutturato per valutare capacità pericolose degli LLM in CBRN, cyberoffense e autonomy; adottato da UK AISI e integrato nel Responsible Scaling Policy di Anthropic.

Verificato Fonte ufficiale

CondividiLinkedIn X

Come si misura se un modello di intelligenza artificiale è abbastanza pericoloso da dover essere fermato prima del rilascio? Fino a pochi anni fa non esisteva una risposta metodologica a questa domanda.

Il Center for AI Safety ha sviluppato un framework di valutazione strutturato per le cosiddette "dangerous capabilities": la capacità di un modello di aiutare nella sintesi di agenti biologici o chimici (CBRN), la capacità di assistere in attacchi informatici offensivi, e la capacità di operare in modo autonomo per obiettivi auto-assegnati.

Il framework definisce benchmark specifici con soglie di rischio, protocolli di test standardizzati e una tassonomia delle capability pericolose che permette confronti tra modelli diversi nel tempo.

Questo tipo di valutazione è ora parte integrante del processo di deployment dei principali lab AI: Anthropic lo ha integrato nel suo Responsible Scaling Policy, e UK AISI lo usa come base per le valutazioni dei modelli frontier.