HuBERT: Meta porta self-supervised su speech, anticipa Whisper

In una frase Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Mentre il mondo guarda i modelli che generano testo, Meta lavora su un'altra cosa: insegnare a un modello a capire l'audio senza etichette. Si chiama HuBERT.

L'idea: prendi ore e ore di parlato (senza trascrizioni), tagli in pezzettini, mascheri alcuni pezzi e fai indovinare al modello cosa c'era. Dopo molto training, il modello impara una rappresentazione interna del parlato che poi può essere riutilizzata per riconoscimento vocale, generazione, traduzione.

È lo stesso pattern di BERT, ma applicato all'audio. HuBERT non è un prodotto consumer, ma fissa l'idea che porterà a Whisper di OpenAI un anno dopo e all'esplosione dei modelli audio multimodali.