Salta al contenuto
AImpact
IT EN
Alto AI multimodale · 1 min lettura

ChatGPT vede, sente e parla: voice + vision in app mobile

In una frase ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

ChatGPT diventa una cosa diversa. Sull'app mobile (iOS e Android) per utenti Plus arrivano due capability nuove:

  • Voice: tieni premuto il bottone cuffie, parli, ChatGPT ti risponde a voce. Cinque voci sintetiche tra cui scegliere (Juniper, Sky, Ember, Cove, Breeze), dietro c'è Whisper per la trascrizione e un nuovo modello TTS per la sintesi. L'effetto è impressionante: sembra di parlare con una persona vera, latenza ~3 secondi.
  • Vision (GPT-4V): alleghi una foto e chiedi cosa c'è dentro. Funziona con foto del frigo ("cosa cucino?"), screenshot ("aiutami a debuggare"), foto di problemi di matematica scritti a mano, etichette di prodotti stranieri, e così via.

Per ChatGPT è il salto da "interfaccia chat" a "assistente conversazionale completo". Spotify userà subito la stessa tech per fare podcast tradotti con la voce dell'autore.

Aziende

OpenAI

Tool

ChatGPT, GPT-4V

Tag

OpenAIChatGPTvoicevisionmultimodalTTS

Fonti