Salta al contenuto
AImpact
IT EN
Alto Voce & audio · 1 min lettura

NaturalSpeech: Microsoft raggiunge la parità con la voce umana su LJSpeech

In una frase NaturalSpeech è il primo sistema TTS a ottenere un MOS statisticamente indistinguibile dalla voce umana registrata sul benchmark LJSpeech, segnando un traguardo storico per la sintesi vocale.

Da rivedere Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Come si misura se una voce artificiale suona come quella umana? Da decenni, i ricercatori usano il MOS (Mean Opinion Score): persone reali ascoltano campioni audio e li valutano su una scala da 1 a 5. Una voce umana registrata in studio ottiene tipicamente intorno a 4.44 su LJSpeech.

Fino al 2022, le migliori voci sintetiche si fermavano attorno a 4.35-4.40: buone, ma ancora percettibilmente artificiali per orecchie attente. NaturalSpeech di Microsoft supera questa soglia, ottenendo un MOS di 4.44 — statisticamente identico alla voce umana di riferimento.

La ricerca non si ferma al risultato: propone un framework rigoroso per definire quando un sistema TTS ha raggiunto la "parità umana" (identità statistica nel MOS, non solo vicinanza).

Tecnicamente, il sistema usa un autoencoder variazionale differenziabile con un nuovo modulo di allineamento fonetico che abbandona i duratori fissi a favore di un approccio completamente differenziabile. Questo permette all'ottimizzazione di scorrere attraverso tutta la pipeline senza interruzioni.

Il messaggio pratico: per le lingue con abbondanza di dati di alta qualità, il problema TTS monoparlatore può essere considerato sostanzialmente risolto. L'attenzione si sposta su multilingue, zero-shot cloning, e voci con carattere.

Aziende

Microsoft

Tool

Tag

NaturalSpeechMicrosofthuman parityMOSTTSspeech synthesis

Fonti