Voicebox: Meta porta il flow matching nel TTS con editing audio e 6 lingue
In una frase Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.
Voicebox è un sistema TTS di Meta che introduce due idee nuove: usa flow matching invece della diffusione classica (più veloce e stabile), e si addestra con un approccio "mascherato" che gli insegna a riempire buchi nell'audio. Questo lo rende versatile in modi che i sistemi precedenti non erano: può generare parlato nuovo, ma anche togliere rumori da un segmento, risintetizzare una parola sbagliata, o trasferire lo stile di una voce in un'altra lingua. Supporta 6 lingue (inglese, francese, spagnolo, tedesco, polacco, portoghese) con qualità paragonabile a sistemi monolingua. È il primo sistema TTS "generalista" in grado di fare editing, denoising e cross-lingual style transfer all'interno dello stesso modello.
Aziende
Meta AI
Tool
Voicebox, Flow Matching
Tag
Fonti