OpenAI Safety Evaluations Hub: dashboard pubblica per il tracking della sicurezza dei modelli nel tempo
In una frase OpenAI lancia una dashboard pubblica con score di sicurezza comparativi per ogni versione dei modelli: eval standardizzate per CBRN, cyberoffense e persuasion, con confronti tra GPT-4o, o1, o3 e versioni precedenti.
Da sempre i grandi modelli di linguaggio vengono rilasciati con valutazioni di sicurezza descritte a parole nei report, difficili da confrontare tra versioni diverse o tra aziende diverse. OpenAI ha deciso di cambiare questo con una dashboard pubblica e quantitativa.
L'OpenAI Safety Evaluations Hub pubblica score numerici per le principali dimensioni di sicurezza di ogni versione del modello: resistenza agli usi in ambito CBRN (armi biologiche, chimiche, radiologiche e nucleari), cyberoffense (assistenza ad attacchi informatici), e persuasion (capacità di influenzare opinioni in modo manipolativo).
La caratteristica più importante è la comparabilità longitudinale: è possibile vedere come cambiano i punteggi da GPT-4 a GPT-4o a o1 a o3, con lo stesso sistema di misurazione applicato in modo coerente nel tempo.
Questo crea una pressione pubblica e documentata: se una versione successiva mostra score peggiori in sicurezza rispetto alla precedente, il fatto è verificabile da chiunque.
Aziende
OpenAI
Tool
OpenAI Safety Evaluations Hub
Tag
Fonti