Percorso
Audio engineer, podcaster e voice developer
Dal riconoscimento vocale open source agli agenti voce in tempo reale.
Sei audio engineer, podcaster o sviluppatore di applicazioni voice e vuoi tracciare la traiettoria dell'AI nell'audio parlato. Questo percorso parte dai modelli self-supervised pre-Whisper (wav2vec, HuBERT), tocca la svolta di Whisper come trascrittore universale gratuito, risale attraverso la voce conversazionale real-time (Moshi, OpenAI Realtime) fino agli ultimi modelli multilingua e ai sintetizzatori vocali di nuova generazione come Sesame e Voxtral.
- 01
Perché conta per te
Primo modello speech SSL di riferimento: dimostra che si può ottenere riconoscimento vocale accurato con pochissimi dati etichettati.
Alto Voce & audiowav2vec 2.0: il "BERT del parlato" arriva da Facebook AI
Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.
- 02
Perché conta per te
HuBERT migliora la robustezza del riconoscimento in ambienti rumorosi: diventa la base per molti sistemi TTS e voice cloning che seguiranno.
Medio Voce & audioHuBERT: Meta porta self-supervised su speech, anticipa Whisper
Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.
- 03
Perché conta per te
Trascrizione automatica open source multilingua di qualità professionale: azzera il costo di sottotitolatura, trascrizione podcast e accessibilità.
Alto Voce & audioWhisper open source: la trascrizione audio diventa commodity
OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
- 04
Perché conta per te
Primo modello conversazionale full-duplex: parla e ascolta in contemporanea, aprendo la strada agli agenti voce che interrompono e reagiscono naturalmente.
Alto Voce & audioMoshi: il primo voice assistant full-duplex open source di Kyutai
Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.
- 05
Perché conta per te
API Realtime di OpenAI in disponibilità generale: gli sviluppatori possono integrare voce bidirezionale a bassa latenza in qualsiasi applicazione.
Alto Voce & audioOpenAI Realtime API GA: voice-to-voice production-ready con WebRTC
OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.
- 06
Perché conta per te
Voxtral porta la trascrizione multilingua di nuova generazione in un modello open-weight: benchmark superiori a Whisper su lingue europee e codice misto.
Medio Voce & audioMistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile
Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.
- 07
Perché conta per te
Sesame Maya introduce la presenza paralinguistica (esitazioni, ritmo, emozione) nella sintesi vocale: il confine tra voce umana e AI si assottiglia definitivamente.
Alto Voce & audioSesame Maya & Miles: voci AI che 'pensano ad alta voce' superano l'uncanny valley
Sesame (startup ex-Oculus/Meta) rilascia Maya e Miles, voci conversazionali con prosody, esitazioni e respiri così naturali da generare effetto 'sembra una persona vera'. Modello base CSM-1B open in Apache 2.0.