XTTS: clonazione vocale multilingue zero-shot open source di Coqui AI

In una frase XTTS porta la clonazione vocale zero-shot multilingue in open source: basta un campione audio di 6 secondi per replicare una voce in 17 lingue diverse, con licenza MIT.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Clonare una voce di solito richiedeva ore di registrazioni e addestramenti costosi. I servizi commerciali come ElevenLabs offrivano clonazione con pochi secondi di audio, ma solo a pagamento e solo in inglese o poche lingue.

XTTS di Coqui AI cambia le regole del gioco: prendi 6 secondi di audio di qualsiasi persona, e il modello può riprodurre quella voce in 17 lingue diverse — italiano, spagnolo, giapponese, cinese, e molte altre. Zero addestramento aggiuntivo. Zero abbonamento.

È come se il modello avesse imparato il concetto astratto di "identità vocale" e sapesse proiettarla in qualsiasi lingua. La voce suona come quella persona, ma parla spagnolo anche se la persona originale non ha mai detto una parola in spagnolo.

Questo era possibile solo per sistemi proprietari costosi prima del 2023. Coqui lo ha rilasciato con licenza MIT, rendendolo completamente libero da usare, modificare e commercializzare.

Coqui AI purtroppo ha chiuso nel 2023, ma il codice e i pesi del modello sono rimasti disponibili su Hugging Face, e la comunità ha continuato a mantenerlo nel fork TTS di Coqui.