GPT-4o — Il Modello Multimodale Nativo che ha Mostrato il Futuro dell'Interfaccia AI

Cos'è: GPT-4o ("o" per "omni") è il modello di OpenAI presentato il 13 maggio 2024, in un evento live condotto da Mira Murati. Prima versione di GPT-4 a processare testo, audio e immagini in un unico modello end-to-end — non come componenti separati collegati in pipeline. Il risultato: latenza voce di 320ms (paragonabile a quella umana), capacità di percepire emozioni dal tono di voce, performance uguale a GPT-4 Turbo ma 2x più veloce e 50% meno costosa per l'API.

La differenza tecnica: "omni" vs pipeline multimodale

I modelli multimodali precedenti — incluso GPT-4V (Vision) — erano in realtà pipeline: un encoder separato per le immagini, un trascrittore separato per l'audio (Whisper), un text-to-speech separato per l'output vocale, con GPT-4 come cervello centrale che coordina il tutto. Ogni passaggio da una modalità all'altra introduceva latenza e perdita di informazione.

GPT-4o è addestrato end-to-end su testo, audio e immagini simultaneamente. Non "traduce" l'audio in testo per poi processarlo — processa i token audio direttamente. Questo ha due conseguenze pratiche: la latenza voce scende a 320ms (vs i 2-3 secondi delle pipeline precedenti), e il modello preserva informazioni che le pipeline perdono — tono emotivo, velocità del parlato, pause, inflessioni.

La demo voce: l'effetto "Her"

La presentazione del 13 maggio 2024 è diventata uno dei momenti più discussi dell'anno AI. In una serie di demo live, GPT-4o conversava in voce in tempo reale, modulava il tono, rideva, recitava, aiutava a risolvere equazioni di matematica mentre "guardava" il quaderno via fotocamera, traduceva in tempo reale tra lingue diverse. La qualità della voce — naturale, espressiva, non robotica — era qualitativamente diversa da qualsiasi TTS precedente.

Sam Altman twittò semplicemente "her" — riferimento al film di Spike Jonze del 2013 con Scarlett Johansson come AI vocale. La scelta di una voce femminile empatica con un nome (Sky) e il riferimento esplicito al film scatenarono una controversia: Scarlett Johansson dichiarò di aver rifiutato una precedente offerta di OpenAI di usare la sua voce, e di essere "scioccata e arrabbiata" per la somiglianza. OpenAI ritirò la voce Sky poco dopo.

Le implicazioni per l'interfaccia AI

GPT-4o ha mostrato una direzione chiara: il futuro dell'AI consumer non è la chat testuale, è la conversazione vocale con consapevolezza contestuale — il modello vede quello che vedi tu, sente quello che dici, e risponde in tempo reale. Le applicazioni più immediate:

Accessibilità: Per persone con difficoltà di lettura/scrittura, un'interfaccia vocale fluente abbassa drasticamente la barriera di accesso all'AI.
Traduzione real-time: Le demo mostravano traduzione simultanea con qualità paragonabile a un interprete professionale, con latenza di pochi secondi.
Tutoraggio: La capacità di "vedere" il quaderno dello studente e spiegare i passaggi in voce è la demo più convincente per l'AI nell'educazione.
Assistente visivo: Descrivere ambienti, leggere testi in immagini, identificare oggetti — capacità con implicazioni enormi per persone non vedenti.

Velocità e costo: il cambiamento operativo per gli sviluppatori

Per chi usa GPT-4 via API, GPT-4o ha rappresentato un miglioramento concreto e immediato:

Velocità: 2x più veloce di GPT-4 Turbo in generazione di testo.
Costo: $5 per milione di token in input (vs $10 di GPT-4 Turbo), $15 per output (vs $30). Dimezzato.
Context window: 128K token, uguale a GPT-4 Turbo.
Performance: Uguale o superiore a GPT-4 Turbo su benchmark standard, con miglioramenti notevoli su task multilingue e visione.

Questo ha spostato il punto di default per molte applicazioni: prima GPT-3.5 era il default economico e GPT-4 era la scelta premium. Con GPT-4o, la qualità di GPT-4 diventa accessibile a costi vicini a GPT-3.5.

Cosa non è arrivato subito: il rollout parziale

La demo del 13 maggio ha mostrato capability che non erano tutte disponibili al lancio. La conversazione vocale avanzata (il "voice mode" con latenza bassa e modulazione emotiva) è rimasta in alpha per mesi, disponibile in preview limitata a luglio 2024 e rilasciata più ampiamente solo in autunno — e con alcune delle voci originali rimosse per le controversie. Le funzionalità di visione real-time via fotocamera erano disponibili solo nell'app mobile. Il modello completo "omni" come dimostrato nella presentazione è arrivato gradualmente, non tutto in una volta.

È una dinamica comune nelle presentazioni OpenAI: la demo mostra il potenziale, il prodotto effettivo arriva in fasi su un arco di settimane o mesi. Utile da tenere a mente per calibrare le aspettative sulle prossime presentazioni.

Link alla fonte originale

OpenAI — Hello GPT-4o →

GPT-4o presentato il 13 maggio 2024. Disponibile gratuitamente su ChatGPT (con limiti di utilizzo), su API da $5/M token input. Technical report: arXiv:2410.21276. GPT-4o mini (luglio 2024) ha portato capacità simili a costi ulteriormente ridotti ($0.15/M token input).