Salta al contenuto
AImpact
IT EN
Medio Voce & audio · 1 min lettura

MeloTTS: sintesi vocale multilingue real-time su CPU a 50MB

In una frase MeloTTS è il primo TTS multilingue di qualità produzione a girare in tempo reale su CPU, pesando solo 50MB e supportando inglese, cinese, giapponese, coreano, spagnolo e francese.

Da rivedere Fonte autorevole
CondividiLinkedInX
Livello di lettura

La maggior parte dei sistemi TTS di alta qualità ha bisogno di una scheda grafica per funzionare in tempo reale. Questo li rende costosi da deployare nel cloud e impossibili su dispositivi economici, Raspberry Pi, o server senza GPU.

MeloTTS di MyShell AI risolve questo problema con un approccio insolito: invece di puntare sulla massima qualità assoluta, ottimizza per qualità percepita relativa alle risorse disponibili. Il risultato è un modello da appena 50 megabyte che gira su CPU a 15 volte la velocità del parlato reale.

"15x real-time su CPU" significa che per produrre un secondo di audio il modello impiega meno di 67 millisecondi. Questo permette sintesi vocale istantanea su qualsiasi hardware, da un vecchio laptop a un server ARM economico.

Supporta sei lingue: inglese (con accenti americano, inglese, indiano, australiano e default), cinese mandarino, giapponese, coreano, spagnolo e francese. Per un modello così piccolo, la copertura è sorprendente.

È particolarmente utile per applicazioni IoT, assistenti locali, sistemi embedded, o qualsiasi scenario dove non si vuole dipendere da API cloud per la sintesi vocale.

Aziende

MyShell AI

Tool

Tag

MeloTTSmultilingualreal-timeCPU inferenceedgeMyShell AIcompact model

Fonti