Claude 4 (Opus + Sonnet): l'AI coding diventa pari a un junior dev

In una frase Anthropic lancia Claude Opus 4 e Sonnet 4. Opus 4 raggiunge 72.5% su SWE-bench Verified (vs 49% di Sonnet 3.7), può lavorare autonomamente su task coding per ore. 'Extended thinking' integrato.

Verificato Fonte ufficiale

CondividiLinkedIn X

Anthropic presenta Claude 4 in due varianti: Opus 4 (top, intelligente) e Sonnet 4 (default, bilanciato). Entrambi possono "pensare a lungo" prima di rispondere (extended thinking), come o1 di OpenAI ma con il reasoning trace visibile.

Il dato che fa rumore: Opus 4 raggiunge 72.5% sul benchmark SWE-bench Verified, che misura quanto un modello è capace di risolvere bug reali da issue GitHub. Per riferimento: un junior developer umano fa intorno al 50-60%.

In Claude Code, Opus 4 può lavorare in autonomia su task complessi per 5-7 ore: legge, modifica, testa, commitsu codebase grandi. Il pattern "AI come collega" diventa concreto.