OpenAI o3: il modello che supera ARC-AGI e ridefinisce 'reasoning'

In una frase OpenAI annuncia o3 e o3-mini: SWE-bench 71.7%, FrontierMath 25.2%, ARC-AGI 87.5% (con budget alto). Salto enorme su reasoning hard. Disponibilità GA prevista 2025.

Verificato Fonte ufficiale

CondividiLinkedIn X

L'ultimo giorno dei "12 Days of OpenAI" di dicembre 2024 Sam Altman annuncia o3, il successore di o1 (saltano il nome "o2" per evitare problemi con un'azienda telefonica). Non è un rilascio: è un annuncio con benchmark spettacolari e accesso solo ai safety researcher.

I numeri sono impressionanti. ARC-AGI, un benchmark progettato apposta per misurare ragionamento "umano" su problemi nuovi mai visti, era considerato uno dei test più difficili per le AI. o3 raggiunge 87.5% (umani circa 85%). FrontierMath, problemi di matematica avanzata che richiedono ore a un matematico professionista, o3 risolve il 25.2% (modelli precedenti: 2%).

Costa molto: ogni soluzione ARC-AGI hard può costare migliaia di dollari di compute, perché il modello "pensa" a lungo. Però segnala che lo scaling del reasoning a inference-time funziona, e che i benchmark "AGI-like" cominciano a cadere uno dopo l'altro.