MeloTTS: sintesi vocale multilingue real-time su CPU a 50MB

In una frase MeloTTS è il primo TTS multilingue di qualità produzione a girare in tempo reale su CPU, pesando solo 50MB e supportando inglese, cinese, giapponese, coreano, spagnolo e francese.

Da rivedere Fonte autorevole

CondividiLinkedIn X

La maggior parte dei sistemi TTS di alta qualità ha bisogno di una scheda grafica per funzionare in tempo reale. Questo li rende costosi da deployare nel cloud e impossibili su dispositivi economici, Raspberry Pi, o server senza GPU.

MeloTTS di MyShell AI risolve questo problema con un approccio insolito: invece di puntare sulla massima qualità assoluta, ottimizza per qualità percepita relativa alle risorse disponibili. Il risultato è un modello da appena 50 megabyte che gira su CPU a 15 volte la velocità del parlato reale.

"15x real-time su CPU" significa che per produrre un secondo di audio il modello impiega meno di 67 millisecondi. Questo permette sintesi vocale istantanea su qualsiasi hardware, da un vecchio laptop a un server ARM economico.

Supporta sei lingue: inglese (con accenti americano, inglese, indiano, australiano e default), cinese mandarino, giapponese, coreano, spagnolo e francese. Per un modello così piccolo, la copertura è sorprendente.

È particolarmente utile per applicazioni IoT, assistenti locali, sistemi embedded, o qualsiasi scenario dove non si vuole dipendere da API cloud per la sintesi vocale.