OpenAI Jukebox: generare canzoni intere con la voce

In una frase OpenAI rilascia Jukebox, un modello generativo che produce canzoni grezze (audio + voce + testo) condizionate su artista e genere, basato su una pila di VQ-VAE e transformer autoregressivi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Fino ad allora i modelli che generavano musica producevano per lo più sequenze MIDI o brevi clip strumentali. OpenAI prova qualcosa di più ambizioso: generare audio grezzo, completo di voce cantata e parole.

Si chiama Jukebox. Gli dai il nome di un artista (Frank Sinatra, Elvis, Kanye West), un genere e qualche riga di testo, e ti restituisce una canzone di un paio di minuti. Non è perfetta — la voce è "bagnata", a volte sbaglia parole — ma è qualcosa che prima non esisteva.

Per chi fa musica è il primo assaggio di un futuro in cui i tool generativi entrano in studio. Per OpenAI è una dimostrazione che i transformer funzionano bene anche fuori dal testo.