Salta al contenuto
AImpact
IT EN
Pietra miliare Modelli foundation · 2 min lettura

OpenAI o3: il modello che supera ARC-AGI e ridefinisce 'reasoning'

In una frase OpenAI annuncia o3 e o3-mini: SWE-bench 71.7%, FrontierMath 25.2%, ARC-AGI 87.5% (con budget alto). Salto enorme su reasoning hard. Disponibilità GA prevista 2025.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

L'ultimo giorno dei "12 Days of OpenAI" di dicembre 2024 Sam Altman annuncia o3, il successore di o1 (saltano il nome "o2" per evitare problemi con un'azienda telefonica). Non è un rilascio: è un annuncio con benchmark spettacolari e accesso solo ai safety researcher.

I numeri sono impressionanti. ARC-AGI, un benchmark progettato apposta per misurare ragionamento "umano" su problemi nuovi mai visti, era considerato uno dei test più difficili per le AI. o3 raggiunge 87.5% (umani circa 85%). FrontierMath, problemi di matematica avanzata che richiedono ore a un matematico professionista, o3 risolve il 25.2% (modelli precedenti: 2%).

Costa molto: ogni soluzione ARC-AGI hard può costare migliaia di dollari di compute, perché il modello "pensa" a lungo. Però segnala che lo scaling del reasoning a inference-time funziona, e che i benchmark "AGI-like" cominciano a cadere uno dopo l'altro.

Aziende

OpenAI

Tool

o3, o3-mini

Tag

OpenAIo3ReasoningARC-AGIFrontier

Fonti