UK AISI: le prime safety evaluation governative su GPT-4o e Claude 3.5
In una frase L'AI Safety Institute del governo UK pubblica i primi risultati indipendenti di safety evaluation su GPT-4o e Claude 3.5 Sonnet usando il benchmark WMDP, primo audit governativo di modelli frontier.
Fino al 2024, le valutazioni di sicurezza dei grandi modelli AI erano condotte solo dalle stesse aziende che li sviluppavano. Il governo britannico ha creato l'AI Safety Institute per fare queste valutazioni in modo indipendente, come un organo di controllo esterno.
I risultati pubblicati riguardano GPT-4o di OpenAI e Claude 3.5 Sonnet di Anthropic, testati su capacità legate ad armi di distruzione di massa (usando il benchmark WMDP), cyberoffense, e manipolazione psicologica. I punteggi vengono confrontati con le valutazioni interne delle stesse aziende.
È un momento storico: per la prima volta un ente governativo ha accesso ai modelli frontier prima del rilascio pubblico e pubblica valutazioni indipendenti. Crea un precedente per la regolamentazione tecnica dell'AI a livello globale.
Aziende
UK Government, OpenAI, Anthropic
Tool
GPT-4o, Claude 3.5 Sonnet, WMDP
Tag
Fonti