Salta al contenuto
AImpact
IT EN
Medio Sicurezza AI · 1 min lettura

Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

In una frase Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Anthropic, l'azienda che fa Claude, è una delle poche a pubblicare in modo trasparente come decide se un suo modello è "troppo pericoloso" per essere rilasciato. Si chiama Responsible Scaling Policy.

La prima versione (2023) usava la quantità di calcolo di training come proxy: più grosso = più rischio. Funziona poco perché un modello piccolo ma specializzato può essere pericoloso quanto uno grande.

La nuova versione cambia approccio: ora si valutano le capacità del modello. Esempio: "se il modello sa aiutare a sintetizzare patogeni gravi", scatta un livello di safety con audit esterni, restrizioni, mitigazioni. Non importa quanto sia grande.

Aziende

Anthropic

Tool

Tag

AnthropicRSPSafetysecurityAI Safety Levels

Fonti