Whisper Large v3 Turbo: ASR veloce 8x con meno dell'1% di degradazione qualità

In una frase Whisper Large v3 Turbo riduce del 40% i parametri del decoder di Large v3 ottenendo velocità 8x superiore con meno dell'1% di aumento WER, rendendo l'ASR di alta qualità accessibile su hardware consumer.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Whisper Large v3 è eccellente ma lento: su un computer normale senza GPU potente, trascrivere un'ora di audio può richiedere un'ora o più. Per applicazioni che richiedono risposta rapida — sottotitoli in tempo reale, assistenti vocali, trascrizione istantanea — era troppo lento per molti hardware.

OpenAI ha risolto il problema con una tecnica chiamata "pruning" (potatura): ha analizzato quali parti del modello contribuivano di più alla qualità e quali erano ridondanti, poi ha rimosso circa il 40% dei parametri del decoder (la parte che genera il testo), mantenendo intatto l'encoder (la parte che analizza l'audio).

Il risultato è un modello 8 volte più veloce di Large v3, ma che commette solo pochissimi errori in più — meno dell'1% di aumento nel tasso di errore per la maggior parte delle lingue. Per uso pratico, la differenza di qualità è quasi impercettibile.

Questo significa che ora si può avere trascrizione di alta qualità in tempo reale anche su un laptop con una GPU consumer da 4GB, o su un server senza GPU dedicata. L'ASR di qualità professionale è diventato accessibile a hardware ordinario.