OpenAI Realtime API GA: voice-to-voice production-ready con WebRTC

In una frase OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

OpenAI rilascia in versione stabile (GA) la Realtime API, presentata in beta a ottobre 2024. È l'API che permette di costruire app vocali in tempo reale: il modello sente la tua voce e risponde con voce, senza i tre passaggi tradizionali (speech-to-text → LLM → text-to-speech).

La novità GA: supporto WebRTC nativo (più semplice da integrare nei browser), prezzi più bassi, integrazione function calling stabile, e una variante mini più economica. Latenza media ~300ms, sotto la soglia percettiva di una conversazione naturale.

Per chi costruisce assistenti vocali, customer support, call center AI, è il primo momento in cui l'infrastruttura è "production-grade" da un unico provider, senza dover orchestrare Deepgram + GPT + ElevenLabs.