Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

In una frase Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.

Verificato Fonte ufficiale

CondividiLinkedIn X

Anthropic, l'azienda che fa Claude, è una delle poche a pubblicare in modo trasparente come decide se un suo modello è "troppo pericoloso" per essere rilasciato. Si chiama Responsible Scaling Policy.

La prima versione (2023) usava la quantità di calcolo di training come proxy: più grosso = più rischio. Funziona poco perché un modello piccolo ma specializzato può essere pericoloso quanto uno grande.

La nuova versione cambia approccio: ora si valutano le capacità del modello. Esempio: "se il modello sa aiutare a sintetizzare patogeni gravi", scatta un livello di safety con audit esterni, restrizioni, mitigazioni. Non importa quanto sia grande.