Categoria

Voce & audio

51 voci

18 maggio 2026 Medio

Voice AI realtime: latenza sotto-secondo e multilingue diventano la norma

Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.

Voce & audio VoiceRealtimeSpeech

15 febbraio 2026 Alto

ElevenLabs lancia Studio Enterprise: clonazione vocale con verifica del consenso e 200+ lingue

ElevenLabs lancia Studio Enterprise con clonazione vocale da 30 secondi con verifica del consenso, API di dubbing con lip-sync, SDK agenti vocali real-time e hosting UE GDPR-compliant. 200+ lingue.

Voce & audio

4 febbraio 2026 Medio

Mistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile

Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.

Voce & audio MistralVoxtralASR

25 gennaio 2026 Medio

Whisper v3 Turbo: trascrizione locale in tempo reale su GPU consumer

Whisper v3 Turbo raggiunge adozione diffusa: 8x più veloce di v3-large con la stessa accuratezza, gira in tempo reale su GPU consumer. Integrato in Ollama e LM Studio, abilita pipeline di trascrizione locale per aziende.

Voce & audio

1 ottobre 2025 Alto

OpenAI Realtime API disponibile in produzione

API WebSocket per agenti vocali di produzione con latenza 300ms, gestione interruzioni e function calling in una sessione testo+audio unificata.

Voce & audio

22 luglio 2025 Alto

Udio v3 e Suno v4: generazione musicale AI di livello professionale

Udio v3 e Suno v4 escono nella stessa settimana con qualità vocale indistinguibile dall'umano su tracce prodotte e struttura canzone completa da un unico prompt. La battaglia legale con l'industria musicale si intensifica.

Voce & audio

21 luglio 2025 Alto

Sesame Maya & Miles: voci AI che 'pensano ad alta voce' superano l'uncanny valley

Sesame (startup ex-Oculus/Meta) rilascia Maya e Miles, voci conversazionali con prosody, esitazioni e respiri così naturali da generare effetto 'sembra una persona vera'. Modello base CSM-1B open in Apache 2.0.

Voce & audio SesameConversational VoiceCSM

17 giugno 2025 Alto

OpenAI Advanced Voice Mode 2.0: range emotivo e memoria vocale

OpenAI aggiorna Advanced Voice Mode con voci personalizzate, rilevamento empatia/umorismo/frustrazione, memoria tra conversazioni vocali e cancellazione del rumore di fondo.

Voce & audio

9 aprile 2025 Alto

OpenAI Realtime API GA: voice-to-voice production-ready con WebRTC

OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.

Voce & audio OpenAIRealtime APIVoice

5 marzo 2025 Medio

F5-TTS: voice cloning real-time senza fine-tuning con flow matching e architettura DiTTo

F5-TTS usa flow matching con architettura DiTTo semplificata per voice cloning zero-shot in tempo reale senza fine-tuning, Apache 2.0, latenza competitiva su GPU consumer.

Voce & audio F5-TTSFlow MatchingVoice Cloning

12 febbraio 2025 Alto

Cartesia Sonic: TTS a 50ms per agenti vocali in produzione

Cartesia lancia Sonic, TTS con latenza ultra-bassa da 50ms, streaming token-by-token, voice cloning senza fine-tuning, progettato specificamente per agenti vocali AI in ambiente di produzione.

Voce & audio CartesiaSonicTTS

10 febbraio 2025 Alto

Dia 1.6B: TTS dialogico open source con risate, respiro e naturalezza umana

Dia di Nari Labs è il primo TTS open source a generare dialoghi naturali con cue non verbali come risate, pause di respiro ed enfasi emotiva, eguagliando la qualità di ElevenLabs per dialoghi multi-parlante con licenza Apache 2.0.

Voce & audio Dia TTSdialoguelaughter

28 gennaio 2025 Medio

ElevenLabs Voice Design: genera una voce unica da descrizione testuale in secondi

ElevenLabs lancia Voice Design: descrivi una voce in linguaggio naturale e ottieni una voce unica sintetizzata in secondi, senza audio di partenza né cloning.

Voce & audio ElevenLabsVoice DesignText-to-Voice

15 gennaio 2025 Medio

Kokoro TTS v0.19: qualità TTS professionale con soli 82 milioni di parametri

Kokoro TTS raggiunge qualità comparabile a sistemi 10x più grandi con soli 82M parametri, inference sotto 1 secondo su CPU, Apache 2.0, ideale per dispositivi edge.

Voce & audio Kokoro TTSEdge TTSOpen Source

22 novembre 2024 Medio

Suno v4: la generazione musicale arriva a qualità studio per pubblico generale

Suno rilascia v4: generazione musicale AI con audio fino a 4 minuti, qualità migliorata vs v3, voci più naturali e supporto per stem separation (separare voce e strumenti).

Voce & audio SunoMusic GenerationAudio

20 novembre 2024 Medio

Fish Speech 1.4: TTS open source con voice cloning da 10 secondi e 8 lingue

Fish Speech 1.4 clona voci da 10s di audio, supporta 8 lingue, gira in tempo reale su CPU e offre una seria alternativa gratuita a ElevenLabs per i developer.

Voce & audio Fish SpeechTTSVoice Cloning

15 novembre 2024 Medio

Whisper Large v3 Turbo: ASR veloce 8x con meno dell'1% di degradazione qualità

Whisper Large v3 Turbo riduce del 40% i parametri del decoder di Large v3 ottenendo velocità 8x superiore con meno dell'1% di aumento WER, rendendo l'ASR di alta qualità accessibile su hardware consumer.

Voce & audio Whisper TurboASRspeed

2 novembre 2024 Medio

Parler TTS: HuggingFace rilascia il primo TTS open source controllabile via testo

Parler TTS genera voci descritte in linguaggio naturale — 'voce maschile lenta, bassa, con eco' — addestrato su 45k ore, Apache 2.0, primo TTS fully controllable open source.

Voce & audio Parler TTSHuggingFaceControllable TTS

5 settembre 2024 Alto

Hume AI EVI 2: la prima voce AI con intelligenza emotiva adattiva

Hume AI lancia EVI 2, la prima interfaccia vocale AI che adatta tono e ritmo in base allo stato emotivo rilevato nell'interlocutore, con API disponibile per sviluppatori.

Voce & audio Hume AIEVIEmotional Intelligence

22 agosto 2024 Medio

CosyVoice: clonazione vocale multilingue zero-shot di Alibaba DAMO

CosyVoice porta la clonazione vocale zero-shot multilingue di qualità produzione all'open source cinese: 3 secondi di riferimento audio per clonare una voce in cinese, inglese, giapponese, coreano e cantonese, con architettura LLM + flow matching.

Voce & audio CosyVoiceAlibabavoice cloning

28 luglio 2024 Alto

OpenAI Advanced Voice Mode: ChatGPT parla in tempo reale con emozioni naturali

ChatGPT ottiene una modalità vocale end-to-end senza STT+TTS separati: latenza 320ms, emozioni naturali, interrompibile. Prima conversazione AI davvero naturale.

Voce & audio OpenAIAdvanced Voice ModeChatGPT

24 luglio 2024 Medio

Suno v3: canzoni più lunghe, migliore coerenza e upload audio

Suno aggiorna a v3 con migliore coerenza lyrics-melody, estensione fino a 4 minuti, e upload audio per continuare tracce esistenti — consolidando la sua posizione nel mercato music AI.

Voce & audio SunoMusic GenerationAI Music

3 luglio 2024 Alto

Moshi: il primo voice assistant full-duplex open source di Kyutai

Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.

Voce & audio KyutaiMoshiVoice

10 aprile 2024 Alto

Udio: musica con vocals AI di qualità professionale diventa virale

Udio lancia la sua piattaforma di generazione musicale con vocals convincenti da prompt testuale, qualità paragonabile a produzioni professionali e crescita virale immediata su Twitter.

Voce & audio UdioMusic GenerationAI Music

28 marzo 2024 Medio

Stable Audio Open: primo modello open-weight per la generazione musicale

Stable Audio Open è il primo modello open-weight per la generazione di musica e sound effect da prompt testuale, con licenza CC-BY che permette l'uso commerciale, basato su latent diffusion con timing conditioning.

Voce & audio Stable Audiomusic generationopen source

29 febbraio 2024 Medio

Stable Audio 2.0: musica stereo fino a 3 minuti con controllo struttura

Stability AI lancia Stable Audio 2.0 con generazione audio stereo fino a 3 minuti, controllo esplicito di intro/outro/strumenti e qualità 44kHz, superando i limiti delle versioni precedenti.

Voce & audio Stability AIStable AudioMusic Generation

12 gennaio 2024 Medio

MeloTTS: sintesi vocale multilingue real-time su CPU a 50MB

MeloTTS è il primo TTS multilingue di qualità produzione a girare in tempo reale su CPU, pesando solo 50MB e supportando inglese, cinese, giapponese, coreano, spagnolo e francese.

Voce & audio MeloTTSmultilingualreal-time

15 dicembre 2023 Medio

StyleTTS2: TTS open source con style diffusion supera Voicebox sull'intelligibilità

StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.

Voce & audio StyleTTS2TTSStyle Diffusion

21 novembre 2023 Alto

OpenAI lancia la TTS API: sei voci, streaming e prezzi aggressivi

OpenAI lancia la TTS API con 6 voci, pricing a 1000 caratteri per $0.015, bassa latenza per streaming e integrazione diretta nell'ecosistema ChatGPT e Assistants.

Voce & audio OpenAITTSAPI

16 novembre 2023 Medio

Google MusicLM: generare musica da testo diventa pubblico

Google rende MusicLM disponibile pubblicamente via Google Labs: generazione musicale da descrizione testuale in stile specifico, prima integrazione consumer di music AI da un big tech.

Voce & audio GoogleMusicLMMusic Generation

26 ottobre 2023 Medio

Whisper Large v3: ASR multilingue migliorato con 5 milioni di ore di training

Whisper Large v3 riduce il tasso di errore sulle lingue a basse risorse, migliora la precisione dei timestamp e aggiunge nuove lingue, rimanendo il modello ASR open source più largamente deployato.

Voce & audio Whisper Large v3ASRspeech recognition

28 settembre 2023 Alto

AudioPaLM: il primo LLM che processa e genera audio come testo

AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.

Voce & audio AudioPaLMGoogleaudio LLM

1 settembre 2023 Alto

Meta AudioCraft: suite open source per musica e audio da testo

Meta rilascia AudioCraft, suite open source che include MusicGen per generare musica strutturata e AudioGen per suoni ambientali, entrambi controllabili da descrizione testuale.

Voce & audio MetaAudioCraftMusicGen

17 luglio 2023 Alto

SeamlessM4T: il modello universale di Meta per la traduzione vocale in 100+ lingue

SeamlessM4T è il primo sistema multimodale a gestire speech-to-text, text-to-speech e speech-to-speech in oltre 100 lingue con un unico modello, alimentando le funzioni di traduzione in tempo reale di Meta.

Voce & audio SeamlessM4TMetaspeech translation

16 giugno 2023 Alto

Voicebox: Meta porta il flow matching nel TTS con editing audio e 6 lingue

Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.

Voce & audio VoiceboxTTSFlow Matching

12 giugno 2023 Medio

Bark: TTS open source con risate, sospiri e musica dal testo

Suno AI rilascia Bark su HuggingFace: modello TTS open source capace di generare paralinguistica — risate, sospiri, effetti sonori, musica — direttamente da prompt testuali.

Voce & audio BarkSuno AITTS

18 maggio 2023 Alto

SoundStorm: Google genera 30 secondi di dialogo naturale in mezzo secondo

SoundStorm usa MaskGIT su token EnCodec per generare audio in parallelo anziché token per token: 30s di dialogo in 0.5s, mantenendo coerenza del parlante.

Voce & audio SoundStormAudio GenerationGoogle

27 gennaio 2023 Alto

XTTS: clonazione vocale multilingue zero-shot open source di Coqui AI

XTTS porta la clonazione vocale zero-shot multilingue in open source: basta un campione audio di 6 secondi per replicare una voce in 17 lingue diverse, con licenza MIT.

Voce & audio XTTSCoquimultilingual

26 gennaio 2023 Alto

ElevenLabs esce dalla beta: la voce AI diventa standard per i creator

ElevenLabs esce dalla beta pubblica con voice cloning da 1 minuto di audio, 29 lingue e TTS prosodicamente naturale, imponendosi come riferimento per creator e audiolibri.

Voce & audio ElevenLabsVoice CloningTTS

5 gennaio 2023 Pietra miliare

VALL-E: Microsoft clona una voce da 3 secondi di audio con in-context learning

VALL-E clona qualsiasi voce con soli 3 secondi di audio di riferimento, senza fine-tuning, usando in-context learning su token EnCodec. Primo TTS a qualità naturalistica zero-shot.

Voce & audio VALL-ETTSVoice Cloning

24 ottobre 2022 Alto

EnCodec: Meta AI comprime l'audio con reti neurali e supera Opus

EnCodec comprime audio 24kHz stereo a soli 1.5–12 kbps con qualità superiore a Opus, e diventa il vocoder standard per i TTS neurali moderni.

Voce & audio EnCodecNeural CodecAudio Compression

21 settembre 2022 Alto

Whisper open source: la trascrizione audio diventa commodity

OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.

Voce & audio OpenAIWhisperASR

12 settembre 2022 Alto

AudioLM: Google insegna a un modello linguistico ad ascoltare e continuare l'audio

AudioLM genera audio coerente a lungo termine usando due livelli di token — semantici e acustici — senza mai guardare testo o spartiti.

Voce & audio AudioLMLanguage ModelAudio Generation

17 giugno 2022 Alto

SoundStream: il primo codec audio neurale real-time di Google

SoundStream introduce la Residual Vector Quantization per comprimere audio a 3kbps con qualità superiore a Opus a 12kbps, fondando l'architettura di tutti i codec neurali moderni usati negli audio LLM.

Voce & audio SoundStreamneural codecRVQ

6 giugno 2022 Medio

Tortoise TTS: clonazione vocale convincente da 3 secondi di audio

James Betker pubblica Tortoise TTS, modello open source con voice cloning da pochi secondi di audio e qualità vocale paragonabile all'umano, prima vera svolta nel TTS accessibile.

Voce & audio TTSVoice CloningOpen Source

20 aprile 2022 Alto

NaturalSpeech: Microsoft raggiunge la parità con la voce umana su LJSpeech

NaturalSpeech è il primo sistema TTS a ottenere un MOS statisticamente indistinguibile dalla voce umana registrata sul benchmark LJSpeech, segnando un traguardo storico per la sintesi vocale.

Voce & audio NaturalSpeechMicrosofthuman parity

27 gennaio 2022 Medio

Coqui TTS: sintesi vocale open source per tutti

Coqui TTS è una libreria Python open source per text-to-speech di qualità, fork di Mozilla TTS, con supporto per oltre 1100 lingue e adottata dalla community HuggingFace.

Voce & audio CoquiTTSOpen Source

9 settembre 2021 Medio

HuBERT: Meta porta self-supervised su speech, anticipa Whisper

Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.

Voce & audio FacebookMetaAV-HuBERT

15 giugno 2021 Alto

VITS: sintesi vocale end-to-end con autoencoder variazionale

VITS unifica il modello acustico e il vocoder in un unico modello end-to-end, raggiungendo qualità superiore a Tacotron 2 con maggiore velocità di inferenza.

Voce & audio VITSTTSend-to-end

20 giugno 2020 Alto

wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.

Voce & audio Facebook AIwav2vec 2.0Speech Recognition

30 aprile 2020 Medio

OpenAI Jukebox: generare canzoni intere con la voce

OpenAI rilascia Jukebox, un modello generativo che produce canzoni grezze (audio + voce + testo) condizionate su artista e genere, basato su una pila di VQ-VAE e transformer autoregressivi.

Voce & audio OpenAIJukeboxMusic Generation