Salta al contenuto
AImpact
IT EN
Alto Voce & audio · 1 min lettura

Cartesia Sonic: TTS a 50ms per agenti vocali in produzione

In una frase Cartesia lancia Sonic, TTS con latenza ultra-bassa da 50ms, streaming token-by-token, voice cloning senza fine-tuning, progettato specificamente per agenti vocali AI in ambiente di produzione.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Costruire un agente vocale AI che risponde in modo fluido come un essere umano richiede una voce artificiale che inizi a parlare quasi istantaneamente — non dopo uno o due secondi di attesa. Cartesia Sonic è progettato esattamente per questo caso d'uso.

Con una latenza di soli 50 millisecondi dal momento in cui l'LLM inizia a generare testo, Sonic produce i primi token audio quasi in tempo reale. Il voice cloning funziona senza richiedere fine-tuning: bastano pochi secondi di audio di riferimento per clonare una voce e usarla immediatamente.

Il prodotto è pensato per sviluppatori che costruiscono agenti vocali in produzione — call center AI, assistenti vocali, sistemi di risposta automatica — dove la latenza fa la differenza tra un'interazione fluida e una frustrante.

Aziende

Cartesia

Tool

Sonic, Cartesia TTS

Tag

CartesiaSonicTTSLow LatencyVoice AgentsStreamingVoice Cloning

Fonti