StyleTTS2: TTS open source con style diffusion supera Voicebox sull'intelligibilità
In una frase StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.
StyleTTS2 è un sistema di sintesi vocale open source sviluppato alla Columbia University che produce voci così naturali da essere spesso indistinguibili da quelle umane nei test soggettivi. La sua idea centrale è trattare lo stile vocale (tono, ritmo, emozione) come un vettore continuo e usare la diffusione per campionare stili diversi in modo controllato. Grazie all'adversarial training, il modello impara a generare audio convincente anche su dettagli sottili come le micro-variazioni prosodiche tipiche del parlato umano. È completamente open source (Apache 2.0) e ha democratizzato l'accesso a TTS di qualità professionale per sviluppatori e ricercatori.
Aziende
Columbia University
Tool
StyleTTS2
Tag
Fonti