Voice AI realtime: latenza sotto-secondo e multilingue diventano la norma
Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.
Categoria
46 voci
Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.
Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.
Sesame (startup ex-Oculus/Meta) rilascia Maya e Miles, voci conversazionali con prosody, esitazioni e respiri così naturali da generare effetto 'sembra una persona vera'. Modello base CSM-1B open in Apache 2.0.
OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.
F5-TTS usa flow matching con architettura DiTTo semplificata per voice cloning zero-shot in tempo reale senza fine-tuning, Apache 2.0, latenza competitiva su GPU consumer.
Cartesia lancia Sonic, TTS con latenza ultra-bassa da 50ms, streaming token-by-token, voice cloning senza fine-tuning, progettato specificamente per agenti vocali AI in ambiente di produzione.
Dia di Nari Labs è il primo TTS open source a generare dialoghi naturali con cue non verbali come risate, pause di respiro ed enfasi emotiva, eguagliando la qualità di ElevenLabs per dialoghi multi-parlante con licenza Apache 2.0.
ElevenLabs lancia Voice Design: descrivi una voce in linguaggio naturale e ottieni una voce unica sintetizzata in secondi, senza audio di partenza né cloning.
Kokoro TTS raggiunge qualità comparabile a sistemi 10x più grandi con soli 82M parametri, inference sotto 1 secondo su CPU, Apache 2.0, ideale per dispositivi edge.
Suno rilascia v4: generazione musicale AI con audio fino a 4 minuti, qualità migliorata vs v3, voci più naturali e supporto per stem separation (separare voce e strumenti).
Fish Speech 1.4 clona voci da 10s di audio, supporta 8 lingue, gira in tempo reale su CPU e offre una seria alternativa gratuita a ElevenLabs per i developer.
Whisper Large v3 Turbo riduce del 40% i parametri del decoder di Large v3 ottenendo velocità 8x superiore con meno dell'1% di aumento WER, rendendo l'ASR di alta qualità accessibile su hardware consumer.
Parler TTS genera voci descritte in linguaggio naturale — 'voce maschile lenta, bassa, con eco' — addestrato su 45k ore, Apache 2.0, primo TTS fully controllable open source.
Hume AI lancia EVI 2, la prima interfaccia vocale AI che adatta tono e ritmo in base allo stato emotivo rilevato nell'interlocutore, con API disponibile per sviluppatori.
CosyVoice porta la clonazione vocale zero-shot multilingue di qualità produzione all'open source cinese: 3 secondi di riferimento audio per clonare una voce in cinese, inglese, giapponese, coreano e cantonese, con architettura LLM + flow matching.
ChatGPT ottiene una modalità vocale end-to-end senza STT+TTS separati: latenza 320ms, emozioni naturali, interrompibile. Prima conversazione AI davvero naturale.
Suno aggiorna a v3 con migliore coerenza lyrics-melody, estensione fino a 4 minuti, e upload audio per continuare tracce esistenti — consolidando la sua posizione nel mercato music AI.
Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.
Udio lancia la sua piattaforma di generazione musicale con vocals convincenti da prompt testuale, qualità paragonabile a produzioni professionali e crescita virale immediata su Twitter.
Stable Audio Open è il primo modello open-weight per la generazione di musica e sound effect da prompt testuale, con licenza CC-BY che permette l'uso commerciale, basato su latent diffusion con timing conditioning.
Stability AI lancia Stable Audio 2.0 con generazione audio stereo fino a 3 minuti, controllo esplicito di intro/outro/strumenti e qualità 44kHz, superando i limiti delle versioni precedenti.
MeloTTS è il primo TTS multilingue di qualità produzione a girare in tempo reale su CPU, pesando solo 50MB e supportando inglese, cinese, giapponese, coreano, spagnolo e francese.
StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.
OpenAI lancia la TTS API con 6 voci, pricing a 1000 caratteri per $0.015, bassa latenza per streaming e integrazione diretta nell'ecosistema ChatGPT e Assistants.
Google rende MusicLM disponibile pubblicamente via Google Labs: generazione musicale da descrizione testuale in stile specifico, prima integrazione consumer di music AI da un big tech.
Whisper Large v3 riduce il tasso di errore sulle lingue a basse risorse, migliora la precisione dei timestamp e aggiunge nuove lingue, rimanendo il modello ASR open source più largamente deployato.
AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.
Meta rilascia AudioCraft, suite open source che include MusicGen per generare musica strutturata e AudioGen per suoni ambientali, entrambi controllabili da descrizione testuale.
SeamlessM4T è il primo sistema multimodale a gestire speech-to-text, text-to-speech e speech-to-speech in oltre 100 lingue con un unico modello, alimentando le funzioni di traduzione in tempo reale di Meta.
Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.
Suno AI rilascia Bark su HuggingFace: modello TTS open source capace di generare paralinguistica — risate, sospiri, effetti sonori, musica — direttamente da prompt testuali.
SoundStorm usa MaskGIT su token EnCodec per generare audio in parallelo anziché token per token: 30s di dialogo in 0.5s, mantenendo coerenza del parlante.
XTTS porta la clonazione vocale zero-shot multilingue in open source: basta un campione audio di 6 secondi per replicare una voce in 17 lingue diverse, con licenza MIT.
ElevenLabs esce dalla beta pubblica con voice cloning da 1 minuto di audio, 29 lingue e TTS prosodicamente naturale, imponendosi come riferimento per creator e audiolibri.
VALL-E clona qualsiasi voce con soli 3 secondi di audio di riferimento, senza fine-tuning, usando in-context learning su token EnCodec. Primo TTS a qualità naturalistica zero-shot.
EnCodec comprime audio 24kHz stereo a soli 1.5–12 kbps con qualità superiore a Opus, e diventa il vocoder standard per i TTS neurali moderni.
OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
AudioLM genera audio coerente a lungo termine usando due livelli di token — semantici e acustici — senza mai guardare testo o spartiti.
SoundStream introduce la Residual Vector Quantization per comprimere audio a 3kbps con qualità superiore a Opus a 12kbps, fondando l'architettura di tutti i codec neurali moderni usati negli audio LLM.
James Betker pubblica Tortoise TTS, modello open source con voice cloning da pochi secondi di audio e qualità vocale paragonabile all'umano, prima vera svolta nel TTS accessibile.
NaturalSpeech è il primo sistema TTS a ottenere un MOS statisticamente indistinguibile dalla voce umana registrata sul benchmark LJSpeech, segnando un traguardo storico per la sintesi vocale.
Coqui TTS è una libreria Python open source per text-to-speech di qualità, fork di Mozilla TTS, con supporto per oltre 1100 lingue e adottata dalla community HuggingFace.
Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.
VITS unifica il modello acustico e il vocoder in un unico modello end-to-end, raggiungendo qualità superiore a Tacotron 2 con maggiore velocità di inferenza.
Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.
OpenAI rilascia Jukebox, un modello generativo che produce canzoni grezze (audio + voce + testo) condizionate su artista e genere, basato su una pila di VQ-VAE e transformer autoregressivi.