Dia 1.6B: TTS dialogico open source con risate, respiro e naturalezza umana

In una frase Dia di Nari Labs è il primo TTS open source a generare dialoghi naturali con cue non verbali come risate, pause di respiro ed enfasi emotiva, eguagliando la qualità di ElevenLabs per dialoghi multi-parlante con licenza Apache 2.0.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Le voci sintetiche di qualità sono migliorate enormemente negli ultimi anni, ma c'era qualcosa che mancava sempre: la spontaneità umana. Quando due persone parlano, non emettono solo parole — ridono, respirano, fanno pause, cambiano tono improvvisamente, si interrompono.

I sistemi TTS tradizionali non sapevano fare queste cose. Producevano testo letto in modo pulito, ma senza quel layer di naturalezza che rende una conversazione vera.

Dia di Nari Labs è il primo modello open source a colmare questo gap: genera dialoghi a due voci da un transcript dove puoi indicare azioni non verbali con tag come [laughs], [sighs], [clears throat] o [breathes]. Il modello produce automaticamente i suoni corrispondenti integrati nel flusso del parlato.

Con 1.6 miliardi di parametri e licenza Apache 2.0, rivaleggia con la qualità dei dialoghi di ElevenLabs — un servizio commerciale che costa centinaia di euro al mese per uso intensivo — e gira completamente in locale.

Per podcast sintetici, narratori di videogiochi, contenuti educativi o assistenti virtuali, questo è un salto qualitativo che rende il confine con le registrazioni umane molto più sottile.