AudioLM: Google insegna a un modello linguistico ad ascoltare e continuare l'audio

In una frase AudioLM genera audio coerente a lungo termine usando due livelli di token — semantici e acustici — senza mai guardare testo o spartiti.

Verificato Fonte ufficiale

CondividiLinkedIn X

AudioLM tratta l'audio come se fosse un linguaggio: lo spezza in piccoli pezzi (token) e impara a predire il pezzo successivo, esattamente come GPT fa con le parole. Usa due livelli distinti: token semantici (ricavati da w2v-BERT) che catturano il significato e la struttura, e token acustici (da SoundStream) che riproducono il suono reale. Il risultato è un sistema capace di continuare un parlato o una melodia per decine di secondi mantenendo coerenza stilistica e prosodica, senza condizionamento testuale. È il primo modello a dimostrare che la generazione audio pura può beneficiare degli stessi principi dei grandi modelli linguistici.