13 maggio 2024 Alto AI multimodale · 1 min lettura

GPT-4o: testo, voce e immagini in un solo modello

In una frase OpenAI presenta GPT-4o (omni), un modello unico che processa nativamente testo, audio e immagini con latenza voce di ~320 ms e qualità GPT-4 sul testo, gratuito anche per utenti free.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

OpenAI presenta GPT-4o ("omni"). La differenza con i modelli precedenti è che testo, voce e immagini non passano più da modelli separati: c'è un unico modello che gestisce tutto.

Risultato pratico: puoi parlare con ChatGPT come parli con una persona, in tempo reale, con interruzioni e cambi di tono. Puoi mostrare una foto e farne discutere. Tutto questo è disponibile anche nel piano gratuito.

Per chi sviluppa o gestisce sistemi, l'API costa la metà di GPT-4 Turbo e ha capacità nuove (voce nativa, latenza bassa) che aprono casi d'uso prima non praticabili.

Aziende

OpenAI

Tool

GPT-4o, ChatGPT

Tag

OpenAIGPT-4oVoiceVisionRealtimeOmni

Fonti

https://openai.com/index/hello-gpt-4o/