wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

In una frase Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per addestrare un buon sistema di riconoscimento vocale, finora servivano migliaia di ore di parlato già trascritto da un umano: lavoro lentissimo e costoso, soprattutto per le lingue meno diffuse.

Facebook propone un'idea simile a BERT, ma applicata al parlato: prima fai ascoltare al modello tantissime ore di audio "senza etichette", nascondendo pezzi e chiedendogli di indovinare cosa manca. Poi gli mostri pochissime ore di parlato trascritto, e impara a trascrivere in modo molto accurato.

Con questa tecnica bastano dieci minuti di audio etichettato per costruire un sistema funzionante. Si apre il riconoscimento vocale per centinaia di lingue minoritarie e per use case verticali (chiamate, dialetti, ambienti rumorosi) dove i dati sono pochi.