VALL-E: Microsoft clona una voce da 3 secondi di audio con in-context learning

In una frase VALL-E clona qualsiasi voce con soli 3 secondi di audio di riferimento, senza fine-tuning, usando in-context learning su token EnCodec. Primo TTS a qualità naturalistica zero-shot.

Verificato Fonte ufficiale

CondividiLinkedIn X

VALL-E è un sistema di sintesi vocale che funziona come ChatGPT ma per le voci: gli mostri 3 secondi di una persona che parla, e lui impara a imitarla leggendo qualsiasi testo tu voglia. Non ha bisogno di riaddestramenti, registrazioni lunghe o dati aggiuntivi: quei 3 secondi sono sufficienti come "prompt audio" per il modello. Il segreto è trattare la voce come sequenze di codici numerici (token EnCodec) e addestare un transformer su 60.000 ore di parlato per imparare ogni possibile stile vocale. Il risultato — nel 2023 — era così realistico da far nascere subito preoccupazioni etiche sul deep fake audio.