Salta al contenuto
AImpact
IT EN
Alto Voce & audio · 1 min lettura

Voicebox: Meta porta il flow matching nel TTS con editing audio e 6 lingue

In una frase Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Voicebox è un sistema TTS di Meta che introduce due idee nuove: usa flow matching invece della diffusione classica (più veloce e stabile), e si addestra con un approccio "mascherato" che gli insegna a riempire buchi nell'audio. Questo lo rende versatile in modi che i sistemi precedenti non erano: può generare parlato nuovo, ma anche togliere rumori da un segmento, risintetizzare una parola sbagliata, o trasferire lo stile di una voce in un'altra lingua. Supporta 6 lingue (inglese, francese, spagnolo, tedesco, polacco, portoghese) con qualità paragonabile a sistemi monolingua. È il primo sistema TTS "generalista" in grado di fare editing, denoising e cross-lingual style transfer all'interno dello stesso modello.

Aziende

Meta AI

Tool

Voicebox, Flow Matching

Tag

VoiceboxTTSFlow MatchingMeta AIMasked TrainingCross-Lingual

Fonti