Mistral Voxtral Transcribe 2: speech-to-text open source che gira sul portatile

In una frase Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Trascrivere voce in testo (ASR, "speech-to-text") è una cosa che fino a poco fa potevi fare bene solo con servizi cloud chiusi: Whisper di OpenAI, Scribe di ElevenLabs, AssemblyAI. Costano e ti tocca mandare l'audio sui loro server.

Mistral rilascia Voxtral Transcribe 2: due modelli aperti (uno per batch, uno per real-time), 4 miliardi di parametri, piccoli abbastanza da girare su un MacBook o uno smartphone moderno. Sono Apache 2.0, quindi te li scarichi e li usi senza pagare licenze.

Numeri dichiarati: trascrizione batch a $0.003 al minuto (80% più economica di ElevenLabs Scribe v2), versione real-time con latenza configurabile fino a 200 millisecondi. Word Error Rate del 4% su FLEURS, sopra GPT-4o Mini Transcribe.

Per chi fa app vocali, call center, podcast tooling: improvvisamente puoi ospitare l'ASR in casa, senza inviare audio a terzi.