Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

Audio engineer, podcaster e voice developer

Dal riconoscimento vocale open source agli agenti voce in tempo reale.

Sei audio engineer, podcaster o sviluppatore di applicazioni voice e vuoi tracciare la traiettoria dell'AI nell'audio parlato. Questo percorso parte dai modelli self-supervised pre-Whisper (wav2vec, HuBERT), tocca la svolta di Whisper come trascrittore universale gratuito, risale attraverso la voce conversazionale real-time (Moshi, OpenAI Realtime) fino agli ultimi modelli multilingua e ai sintetizzatori vocali di nuova generazione come Sesame e Voxtral.

  1. 01

    Perché conta per te

    Primo modello speech SSL di riferimento: dimostra che si può ottenere riconoscimento vocale accurato con pochissimi dati etichettati.

    Alto Voce & audio

    wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

    Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.

  2. 02

    Perché conta per te

    HuBERT migliora la robustezza del riconoscimento in ambienti rumorosi: diventa la base per molti sistemi TTS e voice cloning che seguiranno.

    Medio Voce & audio

    HuBERT: Meta porta self-supervised su speech, anticipa Whisper

    Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.

  3. 03

    Perché conta per te

    Trascrizione automatica open source multilingua di qualità professionale: azzera il costo di sottotitolatura, trascrizione podcast e accessibilità.

    Alto Voce & audio

    Whisper open source: la trascrizione audio diventa commodity

    OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.

  4. 04

    Perché conta per te

    Primo modello conversazionale full-duplex: parla e ascolta in contemporanea, aprendo la strada agli agenti voce che interrompono e reagiscono naturalmente.

    Alto Voce & audio

    Moshi: il primo voice assistant full-duplex open source di Kyutai

    Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.

  5. 05

    Perché conta per te

    API Realtime di OpenAI in disponibilità generale: gli sviluppatori possono integrare voce bidirezionale a bassa latenza in qualsiasi applicazione.

    Alto Voce & audio

    OpenAI Realtime API GA: voice-to-voice production-ready con WebRTC

    OpenAI porta in GA la Realtime API: voice-in/voice-out a bassa latenza (~300ms), tool calling, function calling, WebRTC nativo. Apre la stagione delle voice app production con un'unica API end-to-end.

  6. 06

    Perché conta per te

    Voxtral porta la trascrizione multilingua di nuova generazione in un modello open-weight: benchmark superiori a Whisper su lingue europee e codice misto.

    Medio Voce & audio

    Mistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile

    Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.

  7. 07

    Perché conta per te

    Sesame Maya introduce la presenza paralinguistica (esitazioni, ritmo, emozione) nella sintesi vocale: il confine tra voce umana e AI si assottiglia definitivamente.

    Alto Voce & audio

    Sesame Maya & Miles: voci AI che 'pensano ad alta voce' superano l'uncanny valley

    Sesame (startup ex-Oculus/Meta) rilascia Maya e Miles, voci conversazionali con prosody, esitazioni e respiri così naturali da generare effetto 'sembra una persona vera'. Modello base CSM-1B open in Apache 2.0.