wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI
In una frase Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.
Per addestrare un buon sistema di riconoscimento vocale, finora servivano migliaia di ore di parlato già trascritto da un umano: lavoro lentissimo e costoso, soprattutto per le lingue meno diffuse.
Facebook propone un'idea simile a BERT, ma applicata al parlato: prima fai ascoltare al modello tantissime ore di audio "senza etichette", nascondendo pezzi e chiedendogli di indovinare cosa manca. Poi gli mostri pochissime ore di parlato trascritto, e impara a trascrivere in modo molto accurato.
Con questa tecnica bastano dieci minuti di audio etichettato per costruire un sistema funzionante. Si apre il riconoscimento vocale per centinaia di lingue minoritarie e per use case verticali (chiamate, dialetti, ambienti rumorosi) dove i dati sono pochi.
Aziende
Meta, Facebook AI Research
Tool
wav2vec 2.0
Tag
Fonti