OpenAI o3: il modello che supera ARC-AGI e ridefinisce 'reasoning'
In una frase OpenAI annuncia o3 e o3-mini: SWE-bench 71.7%, FrontierMath 25.2%, ARC-AGI 87.5% (con budget alto). Salto enorme su reasoning hard. Disponibilità GA prevista 2025.
L'ultimo giorno dei "12 Days of OpenAI" di dicembre 2024 Sam Altman annuncia o3, il successore di o1 (saltano il nome "o2" per evitare problemi con un'azienda telefonica). Non è un rilascio: è un annuncio con benchmark spettacolari e accesso solo ai safety researcher.
I numeri sono impressionanti. ARC-AGI, un benchmark progettato apposta per misurare ragionamento "umano" su problemi nuovi mai visti, era considerato uno dei test più difficili per le AI. o3 raggiunge 87.5% (umani circa 85%). FrontierMath, problemi di matematica avanzata che richiedono ore a un matematico professionista, o3 risolve il 25.2% (modelli precedenti: 2%).
Costa molto: ogni soluzione ARC-AGI hard può costare migliaia di dollari di compute, perché il modello "pensa" a lungo. Però segnala che lo scaling del reasoning a inference-time funziona, e che i benchmark "AGI-like" cominciano a cadere uno dopo l'altro.
Aziende
OpenAI
Tool
o3, o3-mini
Tag
Fonti