NaturalSpeech: Microsoft raggiunge la parità con la voce umana su LJSpeech

Come si misura se una voce artificiale suona come quella umana? Da decenni, i ricercatori usano il MOS (Mean Opinion Score): persone reali ascoltano campioni audio e li valutano su una scala da 1 a 5. Una voce umana registrata in studio ottiene tipicamente intorno a 4.44 su LJSpeech.

Fino al 2022, le migliori voci sintetiche si fermavano attorno a 4.35-4.40: buone, ma ancora percettibilmente artificiali per orecchie attente. NaturalSpeech di Microsoft supera questa soglia, ottenendo un MOS di 4.44 — statisticamente identico alla voce umana di riferimento.

La ricerca non si ferma al risultato: propone un framework rigoroso per definire quando un sistema TTS ha raggiunto la "parità umana" (identità statistica nel MOS, non solo vicinanza).

Tecnicamente, il sistema usa un autoencoder variazionale differenziabile con un nuovo modulo di allineamento fonetico che abbandona i duratori fissi a favore di un approccio completamente differenziabile. Questo permette all'ottimizzazione di scorrere attraverso tutta la pipeline senza interruzioni.

Il messaggio pratico: per le lingue con abbondanza di dati di alta qualità, il problema TTS monoparlatore può essere considerato sostanzialmente risolto. L'attenzione si sposta su multilingue, zero-shot cloning, e voci con carattere.