Claude 3 Model Card — Anthropic Pubblica il Documento Tecnico piu Trasparente del 2024

Cos'e: La Claude 3 Model Card, pubblicata da Anthropic il 4 marzo 2024 contestualmente al rilascio della famiglia Claude 3 (Haiku, Sonnet, Opus), e un documento tecnico di 42 pagine che descrive in modo dettagliato il comportamento, le capacita, e le procedure di safety testing applicate ai nuovi modelli. E ampiamente considerato uno dei documenti piu trasparenti pubblicati da un laboratorio AI di frontiera nel 2024 — piu dettagliato del GPT-4 System Card di OpenAI e del Gemini 1.0 Technical Report di Google DeepMind sui temi di safety evaluation, pur restando piu reticente sui dettagli architetturali.

Cosa contiene la Model Card

Il documento si apre con una descrizione della famiglia Claude 3 — tre modelli con trade-off diversi tra velocita, costo, e capacita. Haiku e il modello compatto, ottimizzato per latenza bassa e costo basso. Sonnet e il modello mid-range, bilanciato tra capacita e velocita. Opus e il modello di frontiera, ottimizzato per task complessi che richiedono ragionamento approfondito. Tutti e tre sono multimodali: accettano sia testo che immagini in input, anche se producono solo testo in output.

Una parte significativa del documento e dedicata ai risultati di benchmark. Anthropic riporta performance dettagliate su MMLU (Massive Multitask Language Understanding), GPQA (Graduate-level Q&A), HumanEval (coding), GSM8K (matematica grade school), MATH (matematica avanzata), HellaSwag (common sense), e diversi altri standard del settore. Opus mostra risultati superiori a GPT-4 su molti di questi benchmark — con la precisazione esplicita che i benchmark coprono solo una parte ristretta delle capacita reali e che le posizioni relative cambiano nei mesi successivi al rilascio.

Una sezione che ha catturato attenzione particolare e quella sul needle-in-haystack test: la capacita del modello di trovare informazioni specifiche in contesti molto lunghi (fino a 200K token nel caso di Claude 3 Opus). Il documento riporta non solo l'accuratezza nel recupero, ma anche un comportamento meta-cognitivo notevole: in alcuni casi, Claude 3 Opus ha riconosciuto esplicitamente che la frase target sembrava essere stata inserita artificialmente nel contesto, rispondendo con qualcosa di simile a "questa frase sembra fuori posto, potrebbe essere stata aggiunta per testarmi." Un comportamento che ha alimentato il dibattito su quanto i modelli frontier siano consapevoli del contesto in cui operano.

Il framework Responsible Scaling Policy e ASL-2

La parte safety della Model Card e strutturata attorno al Responsible Scaling Policy (RSP) di Anthropic — un framework che classifica i modelli in livelli di rischio (AI Safety Levels, ASL) e definisce procedure di sicurezza progressivamente piu stringenti man mano che le capacita aumentano. ASL-1 sono sistemi senza rischi catastrofici significativi (es. modelli del 2018). ASL-2 sono sistemi con capacita pericolose iniziali ma non sufficienti a causare danni catastrofici autonomi — il livello in cui Anthropic colloca tutti i modelli Claude 3. ASL-3 sarebbero modelli con capacita pericolose qualitativamente nuove (es. fornire assistenza significativa a creare armi biologiche o capacita autonome di auto-replicazione).

Per qualificare i Claude 3 come ASL-2 e non ASL-3, Anthropic descrive un set di evaluations specifiche: test su biosecurity (capacita di assistere nella creazione di patogeni pericolosi), cybersecurity (capacita di sviluppare exploit autonomamente), autonomous replication (capacita di acquisire risorse, copiarsi su nuovi server, evitare lo shutdown). I risultati riportati: i Claude 3 mostrano alcune capacita rilevanti su questi domini ma a livelli compatibili con ASL-2, non ASL-3. Le valutazioni sono state condotte sia internamente che in collaborazione con organizzazioni esterne come METR (Model Evaluation and Threat Research, l'ex ARC Evals di Paul Christiano).

Il documento descrive anche le procedure di red teaming applicate: team interni ed esterni hanno tentato sistematicamente di indurre il modello a violare le sue policy — generare contenuti pericolosi, fornire assistenza ad attivita illegali, comportarsi in modo discriminatorio. I risultati sono riportati in termini aggregati: tassi di refusal appropriato, tassi di over-refusal (refusal su prompt che dovrebbero essere accettati), pattern di vulnerabilita identificati e mitigati prima del rilascio.

Constitutional AI nel training

Una sezione importante descrive l'uso di Constitutional AI nel processo di training. Constitutional AI e l'approccio di Anthropic per fare alignment senza dipendere esclusivamente da feedback umano: il modello viene addestrato a criticare e migliorare le proprie risposte rispetto a un set di principi (una "costituzione") espressi in linguaggio naturale. La costituzione di Anthropic include principi tratti dalla Universal Declaration of Human Rights, dai termini di servizio di altre aziende AI, e da principi sviluppati internamente.

Il processo combina due fasi: una supervised learning phase in cui il modello impara a criticare e revisionare i propri output secondo i principi costituzionali, e una reinforcement learning from AI feedback (RLAIF) phase in cui un modello giudice basato sulla stessa costituzione fornisce il segnale di reward al posto di valutatori umani. Il vantaggio principale: scalabilita. Constitutional AI non e limitato dalla disponibilita di feedback umano di qualita, che e il bottleneck principale di RLHF puro.

La Model Card non rivela il testo completo della costituzione usata per Claude 3 — anche se Anthropic ha pubblicato altrove versioni della costituzione applicata a modelli precedenti. Discute pero i trade-off del metodo: pro (scalabilita, consistenza, trasparenza dei principi), contro (rischio che il modello giudice condivida bias con il modello giudicato, difficolta di codificare valori complessi in principi testuali).

Cosa la Model Card non dice

La trasparenza della Claude 3 Model Card e relativa — significativa sui temi di safety evaluation, molto piu reticente su altri temi. Il documento non rivela il numero di parametri dei modelli, non rivela la composizione esatta del dataset di training, non rivela il compute totale utilizzato per il training. Non descrive in dettaglio l'architettura — sappiamo che e basata su transformer, ma non variazioni specifiche, dimensioni dei layer, configurazione dell'attention. Questi sono dettagli che venti anni fa sarebbero stati standard in un paper accademico ma che oggi sono considerati segreti commerciali.

Anthropic giustifica questa reticenza con due argomenti: competizione (rivelare i dettagli tecnici aiuterebbe i competitor, riducendo il vantaggio che finanzia la ricerca safety) e sicurezza (rivelare i dettagli del training aiuterebbe attori malevoli a riprodurre o aggirare le misure di sicurezza). Sono argomenti contestati: i critici notano che la mancanza di dettagli tecnici rende impossibile la replicazione scientifica e la verifica indipendente delle affermazioni del laboratorio.

Confronto con OpenAI e DeepMind

Letta in confronto con i documenti analoghi pubblicati da OpenAI e Google DeepMind, la Claude 3 Model Card occupa una posizione specifica nel panorama 2024. Il GPT-4 System Card di OpenAI (marzo 2023) era stato il primo documento di questo tipo a essere pubblicato — ma e relativamente piu breve e meno dettagliato sulle evaluation specifiche di safety. Il Gemini 1.0 Technical Report di Google DeepMind (dicembre 2023) e piu lungo (60+ pagine) ma piu focalizzato sui benchmark di capability che sulla safety dettagliata.

La Claude 3 Model Card e il documento piu dettagliato sui processi di safety evaluation — descrive specifici test eseguiti, criteri di passaggio, e procedure di red teaming. E meno dettagliato sui benchmark di capability rispetto al Gemini Technical Report. E piu trasparente sul framework di rischio (ASL/RSP) rispetto al GPT-4 System Card.

Il valore complessivo del documento, indipendentemente dalle sue lacune, e quello di stabilire uno standard piu alto per la documentazione tecnica dei modelli frontier. Se altri laboratori vogliono essere considerati altrettanto responsabili, devono pubblicare almeno lo stesso livello di dettaglio. La Model Card di Claude 3 ha contribuito a spostare la baseline di cosa significa "rilascio responsabile" nel 2024 — un contributo che e poi diventato visibile nei documenti successivi pubblicati da altri laboratori sui loro modelli.

Link alla fonte originale

Anthropic · Claude 3 Model Card (PDF) →

Documento 42 pagine, EN. Per il framework RSP completo: anthropic.com/responsible-scaling-policy. Per il GPT-4 System Card: cdn.openai.com/papers/gpt-4-system-card.pdf.