Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety
In una frase Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.
Anthropic, l'azienda che fa Claude, è una delle poche a pubblicare in modo trasparente come decide se un suo modello è "troppo pericoloso" per essere rilasciato. Si chiama Responsible Scaling Policy.
La prima versione (2023) usava la quantità di calcolo di training come proxy: più grosso = più rischio. Funziona poco perché un modello piccolo ma specializzato può essere pericoloso quanto uno grande.
La nuova versione cambia approccio: ora si valutano le capacità del modello. Esempio: "se il modello sa aiutare a sintetizzare patogeni gravi", scatta un livello di safety con audit esterni, restrizioni, mitigazioni. Non importa quanto sia grande.
Aziende
Anthropic
Tool
—
Tag
Fonti