EnCodec: Meta AI comprime l'audio con reti neurali e supera Opus

In una frase EnCodec comprime audio 24kHz stereo a soli 1.5–12 kbps con qualità superiore a Opus, e diventa il vocoder standard per i TTS neurali moderni.

Verificato Fonte ufficiale

CondividiLinkedIn X

EnCodec è un codec audio che usa reti neurali invece degli algoritmi classici: prende un suono, lo comprime in codici molto piccoli, e lo ricostruisce con alta fedeltà. Funziona a bitrate molto bassi — anche 1.5 kbps per audio mono, meno di un SMS — pur mantenendo qualità percettiva superiore ai codec tradizionali come Opus o EVS. La parte più importante per l'AI è la struttura RVQ (Residual Vector Quantization): l'audio viene rappresentato come sequenze di token discreti, perfetti per essere usati da modelli linguistici. Per questo EnCodec è diventato il vocoder di fatto per sistemi come AudioLM, SoundStorm, VALL-E e Voicebox.