OpenAI Advanced Voice Mode: ChatGPT parla in tempo reale con emozioni naturali

In una frase ChatGPT ottiene una modalità vocale end-to-end senza STT+TTS separati: latenza 320ms, emozioni naturali, interrompibile. Prima conversazione AI davvero naturale.

Verificato Fonte ufficiale

CondividiLinkedIn X

Prima di Advanced Voice Mode, ChatGPT parlava in modo meccanico: il tuo audio veniva trascritto in testo, il testo elaborato da GPT, e la risposta ri-convertita in audio da un TTS separato. Tre passaggi, tre ritardi, nessuna emozione. Con Advanced Voice Mode tutto avviene in un unico modello end-to-end: ascolta la tua voce direttamente, capisce tono e emozione, risponde con una voce naturale e modulata in circa 320 millisecondi. Puoi interromperla mentre parla, come faresti con una persona vera, e lei smette subito. È il primo sistema AI a conversazione vocale che si avvicina davvero a una telefonata umana.