Claude 3.5 Sonnet — Il Modello Anthropic che ha Cambiato l'Asticella nel 2024

Cos'è: Claude 3.5 Sonnet è il modello di punta che Anthropic rilascia il 20 giugno 2024, posizionato come modello "mid-tier" della famiglia Claude 3.5 ma in grado di superare GPT-4o, Gemini 1.5 Pro e Claude 3 Opus su gran parte dei benchmark pubblici di reasoning, coding e visione, a un prezzo dimezzato rispetto al precedente top di gamma. Lo stesso lancio introduce Artifacts, la prima interfaccia mainstream a mostrare codice, HTML e markdown generati in un pannello accanto alla chat. A ottobre 2024 arriva la Computer Use API, capacità sperimentale che permette al modello di muovere il cursore e cliccare interfacce. È il punto in cui Anthropic smette di essere "l'alternativa etica a OpenAI" e diventa la scelta tecnica di default per molti team di sviluppo.

Il salto di benchmark e il riposizionamento sul prezzo

Anthropic pubblica Claude 3.5 Sonnet con una tabella di confronto che racconta tutta la strategia: 92,0% su HumanEval (coding) contro l'88,4% di Claude 3 Opus e il 90,2% di GPT-4o; 88,7% su MMLU; 67,2% su SWE-bench Verified — uno dei pochissimi punteggi sopra il 60% mai visti nel 2024 su un benchmark che misura la capacità di chiudere issue GitHub reali. Su GPQA Diamond, il benchmark "graduate-level" di scienza dura, supera tutti i modelli concorrenti.

La parte più aggressiva non è però la performance: è il prezzo. Claude 3.5 Sonnet costa 3 dollari per milione di token in input e 15 per milione in output, esattamente come Claude 3 Sonnet del marzo precedente — ma a fronte di capacità superiori a Claude 3 Opus, che costa 15/75. Anthropic, in pratica, rilascia un modello che è due volte più intelligente del suo top di gamma al 20% del prezzo. È il primo annuncio della stagione in cui i grandi laboratori smettono di trattare la qualità come una funzione monotona del costo.

Artifacts: la chat smette di essere solo chat

Insieme al modello, Anthropic lancia Artifacts su claude.ai. Quando Claude genera codice, una pagina HTML, un diagramma SVG o un documento markdown lungo, il contenuto non scorre nel flusso della conversazione: si apre in un pannello a destra, dove viene anche eseguito o renderizzato. Un componente React generato dal modello si vede subito funzionante, un HTML è già navigabile, un SVG è già una figura.

L'idea non è nuova in assoluto — Replit Ghostwriter e v0.dev avevano già esplorato territori simili — ma è la prima volta che entra in un'interfaccia consumer general-purpose con decine di milioni di utenti potenziali. Cambia il modo in cui le persone usano i modelli: dalla "chat che spiega" si passa al "tavolo da lavoro condiviso", dove la conversazione produce manufatti riutilizzabili. Nei mesi successivi OpenAI risponde con Canvas, Google con Code Execution e Gemini Canvas. Il pattern "chat + pannello laterale" diventa standard del settore.

Computer Use: il modello che muove il mouse

Il 22 ottobre 2024 Anthropic estende il rilascio con la Computer Use API, sempre in beta, sempre su Claude 3.5 Sonnet aggiornato (la versione interna chiamata "claude-3-5-sonnet-20241022"). L'idea è semplice e radicale: il modello riceve uno screenshot dello schermo, decide dove cliccare, cosa digitare, quale finestra aprire, e l'API restituisce coordinate del cursore e sequenze di tasti che un loop esterno traduce in azioni reali sul desktop dell'utente.

Le metriche del primo rilascio sono modeste — 14,9% su OSWorld in modalità screenshot-only contro circa il 7-8% degli altri modelli testati — e Anthropic stessa avverte che il sistema è "lento, soggetto a errori, e ancora lontano dall'essere affidabile". Ma il messaggio è chiarissimo: gli LLM smettono di essere oracoli che producono testo e iniziano a essere agenti che operano interfacce. Sei mesi dopo, OpenAI risponde con Operator, Google con Project Mariner, e la categoria "browser/computer agents" diventa il fronte caldo del 2025.

Perché il lancio riposiziona Anthropic

Fino al giugno 2024, la percezione pubblica di Anthropic era quella di "l'azienda della sicurezza", lo spin-off di OpenAI fondato da Dario e Daniela Amodei nel 2021 con la promessa di costruire AI più allineata. Tecnicamente, Claude era considerato un buon modello, ma in seconda fila rispetto a GPT-4. Con 3.5 Sonnet questa narrativa si rompe: il modello migliore disponibile, quello più amato dagli sviluppatori, quello che entra nei tool di coding come Cursor e Cline come default — è Claude. Lo dimostrano gli usage report di OpenRouter (Sonnet diventa il modello più utilizzato in piattaforma a metà 2024) e l'esplosione dell'API enterprise di Anthropic, che secondo The Information passa da circa 100 milioni di dollari annualizzati a inizio anno a oltre un miliardo entro fine 2024.

L'altro effetto è strategico. Amazon, che aveva già investito 4 miliardi in Anthropic a settembre 2023, raddoppia a novembre 2024 con altri 4 miliardi, portando Claude come modello di punta su AWS Bedrock. Google rimane investitore di minoranza ma vede Anthropic correre più veloce di DeepMind sul fronte prodotto. La "corsa a due" tra OpenAI e Anthropic diventa la struttura dominante del mercato dei modelli proprietari frontier, con tutti gli altri (Google, Meta, xAI, Mistral) costretti a inseguire o a giocare partite diverse.

Link alla fonte originale

Anthropic — Claude 3.5 Sonnet announcement →

Claude 3.5 Sonnet è stato annunciato il 20 giugno 2024 e reso disponibile lo stesso giorno su claude.ai, Anthropic API, Amazon Bedrock e Google Vertex AI. Artifacts è stato lanciato in beta sempre il 20 giugno 2024. La Computer Use API è stata rilasciata in public beta il 22 ottobre 2024 con la versione "claude-3-5-sonnet-20241022". Il pricing dichiarato al lancio resta 3$/15$ per milione di token (input/output). Claude 3.5 Haiku è arrivato a novembre 2024, Claude 3.5 Opus è stato saltato a favore di Claude 3.7 Sonnet (febbraio 2025) e poi Claude Opus 4 (maggio 2025).