Whisper — Il Trascrittore AI Open Source che OpenAI ha Rilasciato Gratis

Cos'è: Whisper è un modello automatic speech recognition (ASR) sviluppato da OpenAI e rilasciato open source su GitHub il 21 settembre 2022. È addestrato su 680.000 ore di audio raccolto dal web in 99 lingue diverse, e nella maggior parte dei benchmark supera le soluzioni ASR commerciali a pagamento disponibili all'epoca del rilascio.

Il dataset e l'approccio al training

La scelta metodologica di Whisper è radicalmente diversa dagli approcci precedenti. Invece di curarsi un dataset specializzato e pulito, OpenAI ha scaricato audio dal web in modo semi-supervisionato su scala massiva: 680.000 ore di audio con le relative trascrizioni disponibili online. Questo include podcast, video YouTube, contenuti accademici, interviste, conversazioni informali — con tutto il rumore di fondo, gli accenti, le sovrapposizioni e le imperfezioni che questo comporta.

Il risultato è un modello che non è stato ottimizzato su un benchmark specifico ma che ha imparato la variabilità reale del parlato umano. L'architettura è un Transformer encoder-decoder standard: l'audio viene convertito in spettrogramma mel, processato dall'encoder, e il decoder genera il testo con un meccanismo di attenzione classico. Niente di architetturalmente rivoluzionario — la forza di Whisper sta quasi interamente nella scala e nella diversità dei dati di training.

OpenAI ha rilasciato cinque varianti di dimensione crescente: tiny (39M parametri), base (74M), small (244M), medium (769M) e large (1.5B). La versione large-v2, rilasciata nel dicembre 2022, rimane il punto di riferimento per la qualità massima. Large-v3 è arrivato nel novembre 2023 con ulteriori miglioramenti su lingue a bassa risorsa.

Accuratezza e confronto con le API commerciali

Al momento del rilascio, Whisper large ha prodotto Word Error Rate (WER) inferiori rispetto alle API di trascrizione a pagamento di Google Speech-to-Text, Amazon Transcribe e Microsoft Azure Speech sui benchmark pubblici standard. Questo ha generato un impatto immediato nel mercato: perché pagare per una API quando il modello open source gratuito è più accurato?

La risposta pratica è più sfumata. Le API commerciali offrono bassa latenza, streaming in tempo reale, speaker diarization nativa, punteggiatura automatica affidabile e SLA garantiti. Whisper nella sua implementazione base è un modello batch: trascrive file audio completi, non stream audio in real-time. Per molti use case enterprise questa è una limitazione accettabile; per applicazioni interattive (trascrizione live di riunioni, assistenti vocali) richiede infrastruttura aggiuntiva.

Casi d'uso sysadmin e pipeline tecniche

Dal punto di vista di un amministratore di sistema o di uno sviluppatore di pipeline, Whisper apre possibilità concrete che prima richiedevano budget significativi o accordi con fornitori cloud:

Trascrizione locale con privacy garantita: l'audio non lascia mai il server aziendale. Per aziende soggette a GDPR o con dati sensibili (legale, medico, HR), poter fare trascrizione on-premise senza inviare dati a Google o Amazon è un vantaggio concreto non negoziabile.
Pipeline di indicizzazione video: combinare Whisper con ffmpeg per estrarre l'audio, trascrivere, e indicizzare il testo in un motore di ricerca (Elasticsearch, Typesense) permette di rendere ricercabile un archivio video aziendale senza costi per ora di audio.
Compliance e audit trail: registrazioni di call center, riunioni interne, interviste — Whisper permette di produrre trascrizioni automatiche da archiviare, rendendo più semplice il rispetto di obblighi di conservazione documentale.
Sottotitolazione automatica: l'output di Whisper include timestamp a livello di segmento, utilizzabili direttamente per generare file SRT o VTT per sottotitoli.

L'implementazione tipica usa whisper-ctranslate2 o faster-whisper — reimplementazioni con CTranslate2 che riducono l'utilizzo di VRAM del 30-50% e aumentano la velocità di 2-4x rispetto all'implementazione originale PyTorch. Su una GPU consumer (RTX 3080 o superiore), il modello large-v2 trascrive a circa 10-15x la velocità reale dell'audio.

Limitazioni pratiche da non sottovalutare

Whisper ha due limitazioni tecniche rilevanti che chi lo utilizza in produzione impara rapidamente a conoscere.

La prima è l'assenza di speaker diarization nativa: Whisper trascrive il parlato ma non distingue chi sta parlando. In una conversazione tra più persone, il testo viene prodotto come flusso continuo senza attribuzione. Soluzioni come pyannote.audio possono essere combinate con Whisper per aggiungere la diarization, ma richiedono configurazione aggiuntiva e un modello separato.

La seconda limitazione è più insidiosa: le allucinazioni su audio silenzioso o di bassa qualità. Quando Whisper riceve segmenti audio con poco segnale vocale — rumori di fondo, silenzi, musica — tende a inventare trascrizioni plausibili invece di produrre output vuoti. Questo comportamento, noto come "hallucination" nel gergo ASR, può introdurre testo inesistente nelle trascrizioni. In pipeline automatiche senza revisione umana, questo è un rischio concreto. Soluzioni come il parametro no_speech_threshold e la voce activity detection (VAD) con silero-vad come preprocessore mitigano parzialmente il problema.

Una terza limitazione, meno critica ma da tenere a mente: la punteggiatura è approssimativa per alcune lingue e l'output non segue regole editoriali rigorose. Per testi destinati alla pubblicazione, una revisione rimane necessaria.

Link alla fonte originale

OpenAI Research — Whisper →

Il repository GitHub ufficiale è github.com/openai/whisper. Per implementazioni ottimizzate in produzione, valutare faster-whisper (github.com/SYSTRAN/faster-whisper) basato su CTranslate2.