SoundStorm: Google genera 30 secondi di dialogo naturale in mezzo secondo

In una frase SoundStorm usa MaskGIT su token EnCodec per generare audio in parallelo anziché token per token: 30s di dialogo in 0.5s, mantenendo coerenza del parlante.

Verificato Fonte ufficiale

CondividiLinkedIn X

I sistemi audio come VALL-E generano l'audio un pezzetto alla volta, da sinistra a destra, come una macchina da scrivere: questo li rende lenti. SoundStorm usa invece un approccio parallelo ispirato a MaskGIT: parte da un audio tutto "mascherato" e lo rivela progressivamente in pochi passi, come un puzzle che si risolve tutto insieme. Il risultato è straordinario: genera 30 secondi di dialogo naturale in circa mezzo secondo, mantenendo la coerenza della voce del parlante lungo tutta la frase. È un passo fondamentale verso il TTS e la generazione audio in tempo reale.