Audio engineer, podcaster e voice developer

Dal riconoscimento vocale open source agli agenti voce in tempo reale.

Sei audio engineer, podcaster o sviluppatore di applicazioni voice e vuoi tracciare la traiettoria dell'AI nell'audio parlato. Questo percorso parte dai modelli self-supervised pre-Whisper (wav2vec, HuBERT), tocca la svolta di Whisper come trascrittore universale gratuito, risale attraverso la voce conversazionale real-time (Moshi, OpenAI Realtime) fino agli ultimi modelli multilingua e ai sintetizzatori vocali di nuova generazione come Sesame e Voxtral.

01

Perché conta per te

Primo modello speech SSL di riferimento: dimostra che si può ottenere riconoscimento vocale accurato con pochissimi dati etichettati.

20 giugno 2020 Alto Voce & audio

wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.
02

Perché conta per te

HuBERT migliora la robustezza del riconoscimento in ambienti rumorosi: diventa la base per molti sistemi TTS e voice cloning che seguiranno.

9 settembre 2021 Medio Voce & audio

HuBERT: Meta porta self-supervised su speech, anticipa Whisper

Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.
03

Perché conta per te

Trascrizione automatica open source multilingua di qualità professionale: azzera il costo di sottotitolatura, trascrizione podcast e accessibilità.

21 settembre 2022 Alto Voce & audio

Whisper open source: la trascrizione audio diventa commodity

OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
04

Perché conta per te

Primo modello conversazionale full-duplex: parla e ascolta in contemporanea, aprendo la strada agli agenti voce che interrompono e reagiscono naturalmente.

3 luglio 2024 Alto Voce & audio

Moshi: il primo voice assistant full-duplex open source di Kyutai

Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.
05

Perché conta per te

API Realtime di OpenAI in disponibilità generale: gli sviluppatori possono integrare voce bidirezionale a bassa latenza in qualsiasi applicazione.

9 aprile 2025 Alto Voce & audio

OpenAI Realtime API GA: voice-to-voice production-ready con WebRTC

OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.
06

Perché conta per te

Voxtral porta la trascrizione multilingua di nuova generazione in un modello open-weight: benchmark superiori a Whisper su lingue europee e codice misto.

4 febbraio 2026 Medio Voce & audio

Mistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile

Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.
07

Perché conta per te

Sesame Maya introduce la presenza paralinguistica (esitazioni, ritmo, emozione) nella sintesi vocale: il confine tra voce umana e AI si assottiglia definitivamente.

21 luglio 2025 Alto Voce & audio

Sesame Maya & Miles: voci AI che 'pensano ad alta voce' superano l'uncanny valley

Sesame (startup ex-Oculus/Meta) rilascia Maya e Miles, voci conversazionali con prosody, esitazioni e respiri così naturali da generare effetto 'sembra una persona vera'. Modello base CSM-1B open in Apache 2.0.

Audio engineer, podcaster e voice developer

wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

HuBERT: Meta porta self-supervised su speech, anticipa Whisper

Whisper open source: la trascrizione audio diventa commodity

Moshi: il primo voice assistant full-duplex open source di Kyutai

OpenAI Realtime API GA: voice-to-voice production-ready con WebRTC

Mistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile

Sesame Maya & Miles: voci AI che 'pensano ad alta voce' superano l'uncanny valley