Parler TTS: HuggingFace rilascia il primo TTS open source controllabile via testo

In una frase Parler TTS genera voci descritte in linguaggio naturale — 'voce maschile lenta, bassa, con eco' — addestrato su 45k ore, Apache 2.0, primo TTS fully controllable open source.

Verificato Fonte ufficiale

CondividiLinkedIn X

Invece di scegliere una voce da un menu o caricare un clip audio di riferimento, con Parler TTS descrivi la voce che vuoi in italiano o inglese naturale: "uomo con voce profonda e calma, parlato lento, leggero eco" — e il sistema genera esattamente quella voce. È il primo sistema TTS open source che permette questo livello di controllo testuale: tutti i sistemi precedenti richiedevano un audio di riferimento o una voce preimpostata. HuggingFace lo ha addestrato su 45.000 ore di audio annotato con descrizioni testuali, permettendo al modello di imparare il legame tra linguaggio e caratteristiche vocali. È rilasciato con licenza Apache 2.0: chiunque può usarlo, modificarlo e distribuirlo liberamente.