Alto AI multimodale · 1 min lettura
ChatGPT vede, sente e parla: voice + vision in app mobile
In una frase ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.
Livello di lettura
ChatGPT diventa una cosa diversa. Sull'app mobile (iOS e Android) per utenti Plus arrivano due capability nuove:
- Voice: tieni premuto il bottone cuffie, parli, ChatGPT ti risponde a voce. Cinque voci sintetiche tra cui scegliere (Juniper, Sky, Ember, Cove, Breeze), dietro c'è Whisper per la trascrizione e un nuovo modello TTS per la sintesi. L'effetto è impressionante: sembra di parlare con una persona vera, latenza ~3 secondi.
- Vision (GPT-4V): alleghi una foto e chiedi cosa c'è dentro. Funziona con foto del frigo ("cosa cucino?"), screenshot ("aiutami a debuggare"), foto di problemi di matematica scritti a mano, etichette di prodotti stranieri, e così via.
Per ChatGPT è il salto da "interfaccia chat" a "assistente conversazionale completo". Spotify userà subito la stessa tech per fare podcast tradotti con la voce dell'autore.
Aziende
OpenAI
Tool
ChatGPT, GPT-4V
Tag
OpenAIChatGPTvoicevisionmultimodalTTS
Fonti