VITS: sintesi vocale end-to-end con autoencoder variazionale

Prima di VITS, costruire un sistema di sintesi vocale richiedeva due pezzi separati: uno che trasformava il testo in una rappresentazione intermedia (spettrogramma), e un altro che la convertiva in audio vero e proprio. Era come avere un traduttore che prima scrive la traduzione su carta, poi un secondo che la legge ad alta voce.

VITS cambia tutto questo: un unico modello riceve il testo in ingresso e produce direttamente l'audio, senza passaggi intermedi. Questo approccio "end-to-end" rende il sistema più veloce da addestrare, più semplice da mantenere e — sorprendentemente — produce anche una voce più naturale.

Il segreto tecnico è l'uso di un autoencoder variazionale condizionato, che impara a comprimere e ricostruire l'audio in modo molto efficiente. Il modello capisce anche la durata naturale delle parole senza che qualcuno gliela indichi esplicitamente.

VITS è diventato la base di quasi tutti i sistemi TTS open source moderni, incluso Coqui TTS. La sua architettura è stata adottata e migliorata in VITS2, XTTS e decine di altri progetto derivati.

Per gli sviluppatori, significa poter addestrare un modello di sintesi vocale personalizzato con meno dati e meno hardware rispetto ai sistemi precedenti.