Core Views on AI Safety — Anthropic

Chi è: Anthropic, laboratorio AI fondato nel 2021 da Dario Amodei, Daniela Amodei e altri ex-OpenAI. Missione dichiarata: "responsible development and maintenance of advanced AI for the long-term benefit of humanity." Finanziato da Google e Amazon per un totale di $7B+. Crea i modelli Claude. Si distingue da OpenAI per la maggiore enfasi pubblica sulla safety come research agenda, non solo come policy.

Il paradosso fondatore

Il documento "Core Views on AI Safety" inizia con una confessione che nessun'altra grande azienda tech avrebbe il coraggio di mettere nero su bianco: Anthropic crede di poter essere sulla strada verso l'AGI. Crede che l'AGI sia potenzialmente pericolosa — non solo per misuso banale, ma in senso esistenziale. E costruisce AI comunque. Questo è il paradosso fondatore di Anthropic, e il documento non lo nasconde: lo affronta direttamente come primo punto.

La giustificazione non è cinismo aziendale mascherato da mission statement: è un calcolo strategico esplicito. Se lo sviluppo di AGI è probabile — e Anthropic crede che lo sia — allora la domanda non è "si fa o non si fa" ma "chi lo fa." Un laboratorio che non considera la safety come research agenda fondamentale e non come add-on di compliance non si fermerà per scrupoli etici: è già al lavoro. Meglio quindi che a costruire sistemi molto capaci siano organizzazioni che considerano la safety un problema scientifico aperto, non un ostacolo da minimizzare. "Se c'è da fare questa cosa, facciamola noi" — enunciato con questa chiarezza, è una delle posizioni intellettualmente più oneste nel settore AI.

La Responsible Scaling Policy (RSP)

La principale innovazione di governance che Anthropic introduce è la Responsible Scaling Policy: una politica interna che vincola il rilascio di ogni nuovo modello alla valutazione preventiva del suo livello di capability rispetto a threshold di sicurezza predefiniti. I livelli sono chiamati ASL — AI Safety Levels, sul modello dei Biosafety Levels della ricerca biologica.

ASL-1 copre i sistemi attuali con capacità limitate, nessun rischio significativo da misuso. ASL-2 riguarda sistemi con potenziale per misuso significativo ma contenibile con misure standard: questi richiedono valutazioni di sicurezza prima del rilascio, politiche di uso accettabile più stringenti, e monitoraggio post-deploy. ASL-3 definisce sistemi che potrebbero fornire assistenza significativa per creare armi CBRN (chimiche, biologiche, radiologiche, nucleari) o per compromettere infrastrutture critiche: questi non vengono rilasciati senza mitigazioni obbligatorie e verificate. ASL-4 e oltre non sono ancora stati definiti nel dettaglio, perché Anthropic dichiara di non avere ancora chiarezza su come si manifesterebbero quelle capability. La RSP è un impegno contrattuale pubblico: il documento dice esplicitamente che qualsiasi modello che superi un threshold ASL senza le mitigazioni corrispondenti non verrà rilasciato. Questo è verificabile, almeno in principio, da osservatori esterni.

Constitutional AI (CAI)

Il metodo tecnico che Anthropic ha sviluppato per l'allineamento dei modelli è descritto nel documento come Constitutional AI. L'approccio tradizionale di OpenAI e altri è il RLHF — Reinforcement Learning from Human Feedback: umani valutano migliaia di risposte del modello, i loro giudizi vengono usati per addestrare un reward model, e il reward model viene usato per ottimizzare il modello principale. RLHF funziona ma ha problemi di scala: richiede grandi quantità di lavoro umano costoso, e i valutatori umani non concordano sempre, soprattutto su casi eticamente complessi.

Constitutional AI risolve il problema di scala in modo elegante. Invece di raccogliere feedback umano su ogni risposta, si definisce una costituzione: un insieme di principi scritti in linguaggio naturale ("sii onesto", "evita di aiutare con azioni che danneggino persone innocenti", "rispetta l'autonomia dell'utente"). Il modello viene addestrato a valutare le proprie risposte rispetto a questi principi — e a riscriverle quando non li soddisfa. Il risultato è un processo di auto-critica e revisione che riduce drasticamente il lavoro umano necessario. La costituzione è pubblica: Anthropic l'ha pubblicata. Questo la rende ispezionabile e criticabile, il che è un passo avanti rispetto all'opacità standard del settore.

La ricerca sull'interpretabilità

Una parte significativa del documento riguarda la interpretability research — il tentativo di capire cosa succede dentro i modelli, non solo cosa producono. Anthropic pubblica regolarmente ricerca su meccanismi interni dei transformer: come i meccanismi di attenzione si specializzano su funzioni identificabili, come emergono "feature" che si attivano per concetti specifici (il token "banca" attiva feature diverse per "istituto finanziario" e per "riva del fiume"), come circuiti identificabili eseguono ragionamento aritmetico o analogico.

Il goal dichiarato è ambizioso: capire abbastanza l'architettura interna da poter intervenire chirurgicamente sui comportamenti indesiderati — non solo addestrare via RLHF o CAI sperando che il comportamento emergente sia quello giusto, ma individuare esattamente quale circuito produce un comportamento problematico e modificarlo in modo mirato. I risultati pubblicati finora — come il lavoro su Sparse Autoencoders per identificare feature nel residual stream — sono genuinamente rilevanti per la ricerca. L'interpretabilità è ancora lontana dall'applicazione pratica diretta, ma la direzione è scientificamente fondata e differenzia Anthropic da chi tratta i modelli come black box da addestrare empiricamente.

La critica implicita a OpenAI

Il documento "Core Views" non cita mai OpenAI direttamente. Ma il sottotesto è impossibile da ignorare per chi conosce la storia. Anthropic è nata nel 2021 quando Dario Amodei, Daniela Amodei, e altri ricercatori senior di OpenAI hanno lasciato l'organizzazione — in parte per disaccordi profondi su come gestire la safety nelle decisioni di business. Il documento stabilisce che la safety non è un add-on post-hoc, non è un dipartimento di PR, non è una sezione del technical report scritta per gestire la narrativa pubblica: è una research agenda fondamentale che vincola le decisioni di sviluppo e rilascio.

Ogni modello Claude è — in teoria — rilasciato solo dopo aver soddisfatto i criteri RSP in vigore. Ogni capability preoccupante individuata durante il pre-training viene documentata e valutata. Ogni rilascio viene preceduto da red teaming esterno. Questa struttura è più verificabile dell'approccio di OpenAI, che pubblica safety reports ma non vincola esplicitamente il rilascio a soglie quantificate. La critica implicita è chiara: c'è differenza tra safety washing (mostrare una sezione safety per PR) e safety come vincolo operativo reale.

Cosa manca nel documento

Una lettura onesta del documento deve registrare anche quello che non dice. La RSP pone threshold ASL, ma non risponde a domande fondamentali: chi decide se un sistema ha superato un threshold? Il processo di valutazione è interno ad Anthropic. Non c'è un ente terzo verificatore indipendente. Non c'è un audit esterno obbligatorio. Chi è l'arbitro finale in caso di disaccordo interno? Il documento non lo dice. La pressione commerciale è un'altra lacuna evidente. Anthropic ha raccolto miliardi di dollari da investitori e deve generare revenue per sostenere la ricerca. Come si gestisce il conflitto quando un modello commercialmente rilevante si avvicina a un threshold ASL? Il documento dichiara che la safety prevale, ma i meccanismi concreti di governance non sono trasparenti.

Il board drama del novembre 2023 di OpenAI — dove il CDA ha tentato di rimuovere Altman per preoccupazioni che includevano la velocità di sviluppo — ha mostrato che queste tensioni sono reali e non si risolvono da sole con buone intenzioni. Anthropic ha una struttura di benefit corporation con un mission-focused board, che dovrebbe offrire maggiori garanzie. Ma i meccanismi specifici di accountability rimangono opachi all'esterno. Il documento è il più onesto del settore, e al tempo stesso rivela quanto lavoro rimanga da fare per costruire governance AI credibile e verificabile.

Link alla fonte originale

anthropic.com — Core Views on AI Safety →

Post ufficiale Anthropic, ~3000 parole, EN. Lettura ~12 minuti.