Salta al contenuto
AImpact
IT EN
Medio Voce & audio · 1 min lettura

CosyVoice: clonazione vocale multilingue zero-shot di Alibaba DAMO

In una frase CosyVoice porta la clonazione vocale zero-shot multilingue di qualità produzione all'open source cinese: 3 secondi di riferimento audio per clonare una voce in cinese, inglese, giapponese, coreano e cantonese, con architettura LLM + flow matching.

Da rivedere Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Il mercato dei sistemi TTS di alta qualità era dominato da soluzioni occidentali. Per il cinese mandarino, il cantonese e le lingue asiatiche, le opzioni open source di qualità erano scarse — i sistemi migliori erano tutti proprietari e costosi.

CosyVoice di Alibaba DAMO cambia questa situazione: è il primo sistema TTS open source cinese con qualità paragonabile ai servizi commerciali premium. Basta un campione audio di 3 secondi per clonare qualsiasi voce e farla parlare in cinese, inglese, giapponese, coreano e cantonese.

La cosa interessante è l'approccio architetturale: CosyVoice usa un modello di linguaggio (LLM) per convertire il testo in "speech token" discreti, poi un secondo modello chiamato "flow matching" per convertire quei token in audio reale. È lo stesso approccio dei migliori sistemi commerciali, reso open source.

Il risultato è una voce che suona naturale non solo nella pronuncia, ma nell'intonazione, nel ritmo e nelle variazioni di tono che rendono il parlato umano riconoscibile.

È particolarmente rilevante per applicazioni in mercati asiatici, dove prima non esistevano alternative open source credibili.

Aziende

Alibaba

Tool

Tag

CosyVoiceAlibabavoice cloningmultilingualzero-shotChinese TTSflow matching

Fonti