OpenAI o1 — i modelli che 'pensano prima di rispondere'

Chi è: OpenAI, laboratorio AI. o1 (nome in codice "Strawberry") è stato rilasciato il 12 settembre 2024 in preview. Il team include ricercatori dal progetto scalable oversight e dall'interpretability research. o1 è il primo modello OpenAI pensato specificamente per il ragionamento multi-step, non solo per la generazione fluente di testo.

Il paradigma shift

GPT-4 genera la risposta direttamente: dato il prompt, produce un output token dopo token. Il modello non "pianifica" la risposta — genera la sequenza più probabile dati i token precedenti. Questa architettura è straordinariamente efficace per la maggior parte dei task, ma ha un limite fondamentale: il ragionamento è implicito nella distribuzione di probabilità, non esplicito in una sequenza di passi verificabili.

o1 fa qualcosa di strutturalmente diverso: prima genera una catena di ragionamento interna (chain of thought), poi risponde basandosi su questa traccia di pensiero. Il chain of thought non è visibile all'utente finale — viene nascosto prima di mostrare la risposta — ma guida il processo di generazione in modo sostanziale. Il tempo di risposta è più lungo, anche di molto per problemi complessi, ma la qualità del ragionamento è significativamente superiore su task che richiedono più passi logici.

La metafora più utile: GPT-4 è come uno studente che risponde istintivamente alla prima risposta che gli viene in mente. o1 è come uno studente che bozza la risposta su carta, la verifica, la corregge, e poi scrive la versione finale. Per una domanda di cultura generale, la differenza è marginale. Per un problema di matematica avanzata, la differenza è la differenza tra risposta corretta e risposta sbagliata.

I risultati sui benchmark

o1 segna risultati storici su benchmark di ragionamento che GPT-4 aveva lasciato irrisolti. AIME 2024 (American Invitational Mathematics Examination, competizione matematica per studenti avanzati USA): 83% di risposta corrette contro il 13% di GPT-4o. AIME è notoriamente difficile per gli LLM perché richiede ragionamento multi-step su problemi di algebra e geometria avanzata.

Codeforces, la piattaforma di competitive programming: o1 raggiunge l'89° percentile tra i programmatori umani registrati. GPQA Diamond, un benchmark di domande PhD-level in biologia molecolare, chimica e fisica: 78% per o1, contro il 56% di GPT-4o e il 65% circa degli esperti umani nel dominio. Su questi benchmark specifici, o1 supera non solo i precedenti modelli AI ma anche i professionisti umani specializzati.

È importante qualificare questi risultati: i benchmark di ragionamento sono una proxy, non una misura diretta di intelligenza generale. o1 mostra capacità notevolmente superiori su problemi ben definiti con risposta verificabile. Su task aperti, creativi, o che richiedono senso comune, il vantaggio è meno pronunciato. Il modello è stato ottimizzato per brillare esattamente sui task dove brilla.

Inference-time compute

La novità tecnica principale di o1 è l'uso di compute aggiuntivo durante l'inference — la fase in cui il modello genera la risposta — non solo durante il training. Tradizionalmente, il costo computazionale massiccio sta nel training: il modello impara durante quel processo e poi applica quanto appreso in modo relativamente economico durante l'inference.

o1 inverte parzialmente questa logica: il modello "spende" compute pensando, generando internamente possibili catene di ragionamento, valutandole, scartando quelle che portano a contraddizioni, e convergendo sulla risposta migliore. Più compute si alloca all'inference — più "tempo di pensiero" si dà al modello — migliore è la risposta su task di ragionamento. Questo è stato dimostrato empiricamente da OpenAI con curve di scaling che mostrano miglioramento continuo all'aumentare del compute di inference.

Questo apre una nuova dimensione di scaling che non era stata esplorata sistematicamente prima: non solo "modelli più grandi addestrati su più dati" ma "modelli che pensano più a lungo sui problemi specifici." Le implicazioni sono significative: invece di dover addestrare un nuovo modello più grande per migliorare le prestazioni, si può allocare dinamicamente più compute ai problemi difficili — pagando di più solo quando serve.

Safety e chain of thought nascosto

La decisione di nascondere il chain of thought all'utente finale ha generato un dibattito tecnico e etico rilevante nella community AI. La posizione ufficiale di OpenAI articola due argomenti principali: il chain of thought contiene informazioni sul processo di ragionamento che potrebbero essere sfruttate per costruire jailbreak più efficaci, e potrebbe rivelare capacità del modello non ancora completamente valutate che OpenAI preferisce comprendere prima di rendere pubbliche.

La critica della ricerca accademica e della community di sicurezza è più incisiva: se il modello "pensa" in modi che non possiamo osservare, è impossibile fare auditing del ragionamento, identificare pattern di errore sistematici, o verificare che il modello non stia razionalizzando a posteriori una risposta che ha già deciso per altri motivi. L'interpretabilità del ragionamento richiede accesso al ragionamento.

C'è anche una critica più sottile: OpenAI ha costruito il proprio sistema di monitoring interno del chain of thought per safety evaluation. Il modello è stato addestrato a non alterare il chain of thought interno per soddisfare i safety classifier — ma OpenAI stessa ammette che questo è difficile da verificare completamente. Se il modello impara a "pensare" in un modo e a "mostrare" un chain of thought diverso, questo sarebbe rilevabile solo con accesso al reasoning grezzo.

Il trade-off velocità/accuratezza

o1 è più lento e più costoso di GPT-4o in modo non trascurabile. Per domande semplici — scrivere un'email, rispondere a domande fattuali, generare testo creativo — GPT-4o è sufficiente e molto più veloce. La latenza di o1 può essere di decine di secondi per problemi complessi: il modello sta letteralmente pensando, e questo richiede tempo.

La scelta del modello diventa una decisione di ingegneria con criteri chiari: qual è il costo di un errore in questo contesto? In chirurgia robotica assistita, in analisi finanziaria quantitativa, in review di codice per infrastruttura critica, la differenza tra 95% e 83% di accuratezza su problemi complessi può avere conseguenze concrete. In quei contesti, pagare dieci volte di più per o1 e aspettare trenta secondi di risposta è una scelta razionale. Per rispondere a email o generare contenuti marketing, no.

Un pattern interessante emerso dall'uso: o1 è particolarmente efficace come "secondo parere" su problemi che altri modelli o umani hanno già abbozzato. Presentargli un ragionamento e chiedergli di verificarlo, trovare buchi logici, o estendere l'analisi sfrutta esattamente la capacità in cui eccelle — analisi critica multi-step — senza sprecare il suo tempo e compute su task che GPT-4o gestisce altrettanto bene.

o3 e il futuro dell'inference-time compute

A dicembre 2024, OpenAI ha presentato o3 in preview — un miglioramento significativo rispetto a o1 che ha ridefinito le aspettative sul benchmarking AI. Il risultato più sorprendente: ARC-AGI (Abstract and Reasoning Corpus, un test progettato esplicitamente per essere difficile per gli LLM perché richiede generalizzazione su pattern nuovi) raggiunge 87,5% con o3, contro il 17% di o1.

ARC-AGI era stato costruito dal ricercatore François Chollet nel 2019 esplicitamente come test che i modelli basati su memorizzazione non avrebbero potuto superare — richiede dedurre regole da pochi esempi e applicarle a pattern mai visti. Fino a o3, il punteggio migliore di un AI era sotto il 30%. Il salto a 87,5% (con compute elevato) ha sorpreso gli stessi autori del benchmark.

Il pattern di sviluppo è ora chiaro: il prossimo asse di miglioramento dell'AI non è principalmente "modelli più grandi addestrati su più dati" — quel asse sta rallentando per ragioni fisiche ed economiche. Il nuovo asse è "modelli che ragionano più a lungo su problemi complessi, con architetture ottimizzate per il ragionamento iterativo." Inference-time compute non è una correzione temporanea — è il prossimo paradigma di scaling.

Link alla fonte originale

openai.com — o1 system card →

Blog post + system card su openai.com. EN. o1 disponibile in ChatGPT e API.