Tortoise TTS: clonazione vocale convincente da 3 secondi di audio

In una frase James Betker pubblica Tortoise TTS, modello open source con voice cloning da pochi secondi di audio e qualità vocale paragonabile all'umano, prima vera svolta nel TTS accessibile.

Verificato Fonte ufficiale

CondividiLinkedIn X

Clonare una voce — cioè far parlare un computer esattamente come una persona specifica — sembrava ancora fantascienza per la maggior parte degli sviluppatori indipendenti. Tortoise TTS di James Betker cambia le carte in tavola.

Bastano circa tre secondi di audio di riferimento perché il modello impari lo stile vocale di una persona e generi nuovo parlato in quella voce, con prosodia e timbro convincenti. La qualità supera tutto ciò che era disponibile in open source fino a quel momento.

È lento da eseguire (da qui il nome "tortoise"), ma la qualità del risultato è tale che molti sviluppatori lo scelgono comunque per applicazioni non real-time come audiolibri e doppiaggi.