Responsible Scaling Policy — Anthropic mette per iscritto i limiti

Chi è: Anthropic, benefit corporation AI fondata nel 2021. L'RSP è distinto dal documento "Core Views on AI Safety" (marzo 2023): quello era un manifesto di principi. Questo (settembre 2023) è un documento operativo — stabilisce soglie specifiche (AI Safety Levels, ASL) e obblighi concreti a ogni livello. È stato aggiornato a fine 2024 per riflettere le capacità dei modelli Claude 3+.

La struttura degli AI Safety Levels

Il cuore del documento RSP è un sistema di classificazione a quattro livelli, ispirato concettualmente ai livelli di biosicurezza (BSL-1/4) usati in virologia: più alto è il livello, più pericolose sono le capacità e più stringenti sono i requisiti prima del deploy.

ASL-1 descrive sistemi AI con capacità limitate — i modelli di linguaggio dei primi anni 2020, prima di GPT-3. Nessuna restrizione speciale è richiesta perché le capacità non superano quelle di strumenti già ampiamente disponibili. ASL-2 comprende i sistemi attuali come Claude 2 e Claude 3 Sonnet: modelli che potrebbero assistere in modo non banale in attività dannose, ma dove le informazioni necessarie per causare danno reale sono già largamente accessibili online. Il rischio marginale è reale ma contenuto.

ASL-3 è il livello critico: sistemi che potrebbero fornire "uplift significativo" per la produzione di armi CBRN (chimiche, biologiche, radiologiche, nucleari) o che potrebbero condurre cyberattacchi autonomi su infrastrutture critiche. Uplift significa che il modello abbassa genuinamente la barriera di accesso a capability pericolose — non che le rende possibili (erano già possibili) ma che le rende significativamente più accessibili a attori con risorse limitate. ASL-4 e oltre riguardano sistemi con capacità di auto-replicazione, persuasione strategica a scala, o autonomia operativa che sfugge al controllo umano — ancora ipotetici al momento della pubblicazione del documento.

Gli obblighi a ogni livello

Il documento specifica non solo i livelli ma gli obblighi concreti che si attivano. Per ASL-2, dove si trovano i modelli attuali: safety evaluations pre-release con red team interno ed esterno, pubblicazione di una model card con i risultati, incident reporting per utilizzi imprevisti o pericolosi, deployment controls che limitano l'accesso a certi use case ad alto rischio, e revisione periodica delle policy.

Per ASL-3, non ancora raggiunto al momento della pubblicazione dell'RSP originale: restrizioni di accesso drasticamente più severe, nessun deploy su API pubblica senza mitigazioni robuste certificate da revisori indipendenti, revisione obbligatoria del board di Anthropic prima del rilascio, possibile sospensione dello sviluppo finché le mitigazioni non sono dimostrate adeguate. L'impegno centrale è che Anthropic non rilascerà un modello classificato ASL-3 senza aver dimostrato in modo verificabile di avere controlli sufficienti a gestirne i rischi — indipendentemente da pressioni competitive o commerciali.

La logica sottostante: il framework dà a Anthropic stessa un meccanismo interno per resistere alla pressione di accelerare i rilasci per competere con OpenAI o Google. "Non possiamo rilasciare perché non abbiamo ancora le mitigazioni ASL-3" è una risposta più solida a pressioni esterne rispetto a "abbiamo deciso che non è sicuro" — la prima è procedurale e verificabile, la seconda è discrezionale.

Perché è diverso da "principi" generici

La critica standard ai documenti di principi AI — "useremo l'AI in modo responsabile, equo, trasparente, benefico" — è che non impegnano a nulla di specifico. Sono affermazioni di intenzione senza threshold, senza obblighi misurabili, senza conseguenze per la violazione. Ogni azienda tech ne ha uno, e nessuno è vincolante.

L'RSP è strutturalmente diverso in tre modi. Primo: ha threshold operativi — non "saremo attenti con capacità pericolose" ma "se un modello mostra capacità X (operativamente definite attraverso evaluation specifiche), scattano misure Y (operativamente descritte) prima del deploy." Secondo: è pubblicato e versioned — aggiornamenti richiedono annunci pubblici, creando accountability reputazionale per violazioni. Terzo: include obblighi che costano commercialmente — posticipare il rilascio di un modello competitivo è costoso, e l'impegno a farlo in certi scenari è un impegno verificabile.

Questo è verificabile, almeno parzialmente. Ricercatori esterni possono testare i modelli rilasciati contro le capability threshold dichiarate negli ASL e chiedere conto se ritengono che un modello stia operando al di sopra del livello dichiarato senza le mitigazioni previste. La community di sicurezza AI ha effettivamente fatto questo tipo di analisi.

Le critiche e i limiti

La critica più fondamentale riguarda chi decide: la classificazione ASL di un modello è determinata da Anthropic stessa, non da un ente terzo indipendente. Il processo di evaluation è interno, con input di red team esterni ma senza un arbitro esterno con autorità reale. L'organizzazione con il maggiore incentivo commerciale a classificare i propri modelli al livello più basso possibile è anche l'arbitro del processo di classificazione.

Le definizioni degli ASL, pur più specifiche di generici principi, rimangono parzialmente soggettive. "Uplift significativo" per armi biologiche: quanto è significativo? Il documento descrive evaluation specifiche che Anthropic usa, ma la soglia di "superamento" rimane una valutazione interna. Ricercatori di sicurezza biosecurity che hanno valutato i modelli attuali hanno opinioni divergenti su dove si trovino rispetto alla soglia ASL-3.

Un terzo limite: Anthropic può aggiornare unilateralmente le definizioni. Se le capability dei modelli si avvicinano alla soglia ASL-3 e le mitigazioni richiedono più tempo del previsto, c'è un incentivo a ridefinire la soglia piuttosto che a ritardare il rilascio. La versione 2024 dell'RSP ha effettivamente modificato alcune definizioni, con conseguente dibattito nella community su se i cambiamenti fossero giustificati o strategici.

L'influenza sull'industria

Nonostante i limiti, l'RSP ha avuto un impatto reale sul settore. OpenAI ha pubblicato un "Preparedness Framework" a dicembre 2023, strutturato con una logica di livelli di rischio simile agli ASL. Google DeepMind ha pubblicato una "Frontier Safety Framework" nel maggio 2024, con la stessa logica di threshold operative. Il UK AI Safety Institute e il US AI Safety Institute nelle loro valutazioni dei modelli frontier usano strutture analitiche simili agli ASL.

Anthropic ha contribuito a rendere mainstream nella comunità AI l'idea che i laboratori debbano avere impegni operativi pre-deploy, non solo principi etici post-hoc. Prima dell'RSP, il dibattito sulla sicurezza AI era prevalentemente accademico o apocalittico. Dopo, è diventato più tecnico e operativo: quali capacità specifiche richiedono quali controlli specifici?

Il dibattito è ora su chi verifica e impone questi impegni — non se debbano esistere. Le proposte variano: auditing terzi certificati, disclosure obbligatoria alle agenzie governative, testing da parte di istituti pubblici come AISI prima del rilascio. Il framework ASL ha fornito un vocabolario e una struttura concettuale che stanno guidando queste discussioni politiche in USA, UK e UE. È un contributo intellettuale concreto indipendentemente da come si valuti l'implementazione specifica di Anthropic.

Link alla fonte originale

anthropic.com — Responsible Scaling Policy →

Documento completo su anthropic.com. Aggiornato nel 2024. EN.