SoundStream: il primo codec audio neurale real-time di Google

In una frase SoundStream introduce la Residual Vector Quantization per comprimere audio a 3kbps con qualità superiore a Opus a 12kbps, fondando l'architettura di tutti i codec neurali moderni usati negli audio LLM.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Un codec audio è il software che comprime la voce quando fai una videochiamata o ascolti musica in streaming. I codec tradizionali come MP3 o Opus funzionano con regole matematiche fisse, progettate dagli ingegneri a mano.

SoundStream prende un approccio completamente diverso: usa una rete neurale addestrata su milioni di secondi di audio per imparare da sola come comprimere l'audio nel modo più efficiente possibile. Il risultato è sorprendente: a 3 kilobit per secondo (un quarto di quello che usa Opus), l'audio suona meglio di Opus a 12kbps.

La cosa davvero importante, però, è l'architettura interna: SoundStream introduce la "Residual Vector Quantization" (RVQ), un modo per trasformare qualsiasi pezzo di audio in una sequenza di numeri discreti ordinati. Questi numeri — chiamati "token audio" — sono come le parole per il testo: permettono ai modelli di linguaggio di "leggere" e "scrivere" audio come se fosse testo.

Questa intuizione ha dato vita a tutti i grandi modelli audio che sono venuti dopo: EnCodec di Meta, DAC, Vocos, MusicGen, AudioLM, e alla fine GPT-4o con audio nativo. SoundStream è la pietra fondante dell'era degli "audio LLM".