Claude — L'Assistente AI di Anthropic e la Filosofia della Safety

Cos'è: Claude è l'assistente conversazionale sviluppato da Anthropic, lanciato pubblicamente a marzo 2023. È il prodotto di punta di un'azienda fondata da ex ricercatori di OpenAI — tra cui Dario e Daniela Amodei — con la missione dichiarata di costruire sistemi AI sicuri e interpretabili prima che diventino più capaci degli esseri umani.

Il contesto del lancio: perché marzo 2023

Il lancio pubblico di Claude non avviene nel vuoto. Siamo tre mesi dopo l'esplosione di ChatGPT (novembre 2022), in un momento in cui OpenAI ha già annunciato GPT-4 e Microsoft ha integrato il modello in Bing. Anthropic, che esiste come azienda dal 2021, aveva fino ad allora lavorato in modalità quasi stealth su ricerca e safety. Claude 1.0 arriva come risposta diretta alla corsa commerciale, ma con una narrazione differente: non "il modello più capace", bensì "il modello più affidabile".

La distinzione è rilevante dal punto di vista ingegneristico. Mentre OpenAI aveva ottimizzato aggressivamente su RLHF (Reinforcement Learning from Human Feedback) per la user satisfaction, Anthropic aveva sviluppato in parallelo una tecnica proprietaria chiamata Constitutional AI, pubblicata come paper nel dicembre 2022.

Constitutional AI: come funziona in pratica

Constitutional AI (CAI) parte dall'osservazione che il RLHF tradizionale richiede enormi quantità di feedback umano per ogni tipo di comportamento indesiderato, e che i labeler umani possono essere incoerenti o influenzati. L'idea di Anthropic è diversa: invece di far valutare a umani ogni risposta pericolosa, si definisce una costituzione — un insieme di principi in linguaggio naturale — e si usa il modello stesso per criticare e revisionare le proprie risposte rispetto a quella costituzione.

Il processo ha due fasi distinte. Nella prima (SL-CAI, supervised learning) il modello genera risposte, poi le critica applicando i principi costituzionali, poi le riscrive. Nella seconda (RL-CAI) si usa un modello preferenze addestrato sulle revisioni per fare reinforcement learning, sostituendo in gran parte il giudizio umano diretto sulle risposte dannose. Il risultato dichiarato: meno dipendenza da feedback umano su contenuti tossici (che è psicologicamente oneroso per i labeler) e maggiore coerenza nella policy di sicurezza.

Il framework HHH: Helpful, Harmless, Honest

Il posizionamento pubblico di Claude ruota attorno a tre assi che Anthropic chiama HHH: Helpful (utile), Harmless (non dannoso), Honest (onesto). Non è solo marketing: i tre assi sono in tensione reale tra loro, e Anthropic ha prodotto ricerca specifica su come bilanciarli.

L'asse più problematico nella pratica è la tensione tra "utile" e "non dannoso". Un modello eccessivamente cauto rifiuta richieste legittime, rendendo il prodotto inutilizzabile. Un modello troppo permissivo produce danni reali. Claude è stato criticato nelle prime versioni per eccessivo hedging e rifiuti non necessari — un problema che Anthropic ha affrontato esplicitamente nelle versioni successive, spostando l'equilibrio verso la helpfulness senza compromettere i vincoli core.

L'asse "honest" è forse il più differenziante: Anthropic ha investito in ricerca sull'elicitation delle credenze del modello, cercando di distinguere tra ciò che il modello "crede" essere vero e ciò che dice per compiacere l'utente (sycophancy). Questo ha portato a comportamenti come la disponibilità di Claude a mantenere posizioni scomode sotto pressione dell'utente, cosa che GPT tende a fare meno.

La famiglia di modelli: Haiku, Sonnet, Opus

A partire da Claude 2 (luglio 2023) e poi con Claude 3 (marzo 2024), Anthropic ha strutturato l'offerta in tre tier con una nomenclatura poetica: Haiku (veloce ed economico), Sonnet (bilanciato), Opus (massima capacità). La scelta dei nomi non è casuale: riflette la filosofia di un'azienda che vuole distanziarsi dal linguaggio militare o di potenza (GPT-4 Turbo, Gemini Ultra) per posizionarsi come strumento intellettuale raffinato.

Dal punto di vista tecnico, Claude 3 Opus ha raggiunto o superato GPT-4 su diversi benchmark standard (MMLU, HumanEval, GSM8K) al lancio, mentre Sonnet ha offerto un rapporto prestazioni/costo competitivo che ha convinto molti sviluppatori ad adottarlo come default nelle pipeline di produzione. Haiku rimane il modello di riferimento per use case ad alto volume e bassa latenza.

La RSP come vincolo di prodotto

Nel settembre 2023 Anthropic ha pubblicato la Responsible Scaling Policy (RSP), un documento che definisce soglie di capacità (ASL — AI Safety Levels) oltre le quali certi modelli non possono essere rilasciati senza misure di sicurezza specifiche. È un'iniziativa inusuale nel settore: un'azienda che si auto-vincola pubblicamente sulle condizioni di rilascio dei propri modelli.

Dal punto di vista prodotto, la RSP ha implicazioni concrete: alcune capacità di Claude (ad esempio assistenza in ambito CBRN — chimico, biologico, radiologico, nucleare) vengono deliberatamente limitate anche quando il modello sarebbe tecnicamente in grado di fornirle. Questo crea tensioni commerciali reali con i clienti enterprise che vorrebbero accesso non filtrato, ma è coerente con il posizionamento di Anthropic come azienda che mette la sicurezza prima dei ricavi.

Il contesto competitivo: board drama OpenAI e l'effetto sul mercato

Il novembre 2023 ha portato un evento imprevisto che ha involontariamente beneficiato Anthropic: il tentativo del board di OpenAI di licenziare Sam Altman, seguito dal suo reintegro dopo 5 giorni di caos. L'episodio ha rivelato tensioni profonde tra la missione no-profit originale di OpenAI e la sua deriva commerciale, e ha spinto molti osservatori e clienti enterprise a riconsiderare la dipendenza da un singolo fornitore.

Anthropic ha raccolto indirettamente i frutti di questa incertezza: nei mesi successivi ha annunciato investimenti da Google (fino a 2 miliardi di dollari) e Amazon (fino a 4 miliardi), consolidando una posizione finanziaria che le permette di competere sulla frontier senza compromettere la mission. La narrativa "AI sicura per design" — prima percepita come una limitazione commerciale — è diventata un punto di differenziazione positivo in un mercato che iniziava a interrogarsi sulla governance dei modelli frontier.

Link alla fonte originale

Anthropic — Claude →

La pagina ufficiale di Claude include documentazione tecnica, API reference e confronto tra i tier di modello. Per i paper di ricerca (Constitutional AI, RSP) consultare anthropic.com/research.