Whisper Large v3: ASR multilingue migliorato con 5 milioni di ore di training

In una frase Whisper Large v3 riduce il tasso di errore sulle lingue a basse risorse, migliora la precisione dei timestamp e aggiunge nuove lingue, rimanendo il modello ASR open source più largamente deployato.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Whisper è il sistema di riconoscimento vocale open source di OpenAI che ha cambiato lo standard del settore. La versione large v3 è un'evoluzione raffinata che porta miglioramenti concreti dove contava di più.

Il salto più significativo riguarda le lingue a basse risorse — quelle lingue che hanno pochi dati di training disponibili, come lingue africane, dialetti regionali o idiomi con poca presenza online. Su queste lingue il tasso di errore scende in modo sensibile rispetto alla versione precedente.

Migliora anche la precisione dei timestamp: quando Whisper v3 dice "questa parola è stata pronunciata al secondo 3.42", ci si può fidare di più rispetto a prima. Per chi costruisce sottotitoli automatici o sistemi di ricerca nel parlato, questa precisione è fondamentale.

Il modello è stato addestrato su ben 5 milioni di ore di audio, una quantità imponente che spiega la sua robustezza su accenti diversi, contesti rumorosi e variazioni linguistiche.

Nonostante l'arrivo di concorrenti più veloci, Whisper Large v3 rimane il punto di riferimento per qualità ASR open source — il modello verso cui tutto viene comparato.