StyleTTS2: TTS open source con style diffusion supera Voicebox sull'intelligibilità

In una frase StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.

Verificato Fonte ufficiale

CondividiLinkedIn X

StyleTTS2 è un sistema di sintesi vocale open source sviluppato alla Columbia University che produce voci così naturali da essere spesso indistinguibili da quelle umane nei test soggettivi. La sua idea centrale è trattare lo stile vocale (tono, ritmo, emozione) come un vettore continuo e usare la diffusione per campionare stili diversi in modo controllato. Grazie all'adversarial training, il modello impara a generare audio convincente anche su dettagli sottili come le micro-variazioni prosodiche tipiche del parlato umano. È completamente open source (Apache 2.0) e ha democratizzato l'accesso a TTS di qualità professionale per sviluppatori e ricercatori.