CosyVoice: clonazione vocale multilingue zero-shot di Alibaba DAMO
In una frase CosyVoice porta la clonazione vocale zero-shot multilingue di qualità produzione all'open source cinese: 3 secondi di riferimento audio per clonare una voce in cinese, inglese, giapponese, coreano e cantonese, con architettura LLM + flow matching.
Il mercato dei sistemi TTS di alta qualità era dominato da soluzioni occidentali. Per il cinese mandarino, il cantonese e le lingue asiatiche, le opzioni open source di qualità erano scarse — i sistemi migliori erano tutti proprietari e costosi.
CosyVoice di Alibaba DAMO cambia questa situazione: è il primo sistema TTS open source cinese con qualità paragonabile ai servizi commerciali premium. Basta un campione audio di 3 secondi per clonare qualsiasi voce e farla parlare in cinese, inglese, giapponese, coreano e cantonese.
La cosa interessante è l'approccio architetturale: CosyVoice usa un modello di linguaggio (LLM) per convertire il testo in "speech token" discreti, poi un secondo modello chiamato "flow matching" per convertire quei token in audio reale. È lo stesso approccio dei migliori sistemi commerciali, reso open source.
Il risultato è una voce che suona naturale non solo nella pronuncia, ma nell'intonazione, nel ritmo e nelle variazioni di tono che rendono il parlato umano riconoscibile.
È particolarmente rilevante per applicazioni in mercati asiatici, dove prima non esistevano alternative open source credibili.
Aziende
Alibaba
Tool
—
Tag
Fonti