Stable Audio Open: primo modello open-weight per la generazione musicale

In una frase Stable Audio Open è il primo modello open-weight per la generazione di musica e sound effect da prompt testuale, con licenza CC-BY che permette l'uso commerciale, basato su latent diffusion con timing conditioning.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Fino al 2024, generare musica di qualità da una descrizione testuale era possibile solo con servizi commerciali come Suno o Udio. Tutti i modelli veramente buoni erano proprietari e richiedevano abbonamenti o API a pagamento.

Stable Audio Open di Stability AI cambia questo: è il primo modello di generazione musicale di qualità che chiunque può scaricare, eseguire localmente, modificare e usare commercialmente. La licenza CC-BY richiede solo di citare la fonte.

Con una descrizione come "drum and bass aggressivo con basso profondo, 140 BPM" o "ambient rilassante con pianoforte e pioggia", il modello genera clip audio stereo di circa 47 secondi che rispettano sia il contenuto musicale che il timing richiesto.

L'aspetto del timing conditioning è particolarmente utile: puoi specificare sia la durata che il punto di inizio nella struttura musicale, il che permette di generare intro, bridge, o outro in modo coerente.

È anche il primo modello open di questo tipo a supportare la generazione di effetti sonori e texture audio non musicali.