VITS: sintesi vocale end-to-end con autoencoder variazionale
In una frase VITS unifica il modello acustico e il vocoder in un unico modello end-to-end, raggiungendo qualità superiore a Tacotron 2 con maggiore velocità di inferenza.
Prima di VITS, costruire un sistema di sintesi vocale richiedeva due pezzi separati: uno che trasformava il testo in una rappresentazione intermedia (spettrogramma), e un altro che la convertiva in audio vero e proprio. Era come avere un traduttore che prima scrive la traduzione su carta, poi un secondo che la legge ad alta voce.
VITS cambia tutto questo: un unico modello riceve il testo in ingresso e produce direttamente l'audio, senza passaggi intermedi. Questo approccio "end-to-end" rende il sistema più veloce da addestrare, più semplice da mantenere e — sorprendentemente — produce anche una voce più naturale.
Il segreto tecnico è l'uso di un autoencoder variazionale condizionato, che impara a comprimere e ricostruire l'audio in modo molto efficiente. Il modello capisce anche la durata naturale delle parole senza che qualcuno gliela indichi esplicitamente.
VITS è diventato la base di quasi tutti i sistemi TTS open source moderni, incluso Coqui TTS. La sua architettura è stata adottata e migliorata in VITS2, XTTS e decine di altri progetto derivati.
Per gli sviluppatori, significa poter addestrare un modello di sintesi vocale personalizzato con meno dati e meno hardware rispetto ai sistemi precedenti.
Aziende
Kakao Enterprise
Tool
—
Tag
Fonti