Cartesia Sonic: TTS a 50ms per agenti vocali in produzione
In una frase Cartesia lancia Sonic, TTS con latenza ultra-bassa da 50ms, streaming token-by-token, voice cloning senza fine-tuning, progettato specificamente per agenti vocali AI in ambiente di produzione.
Costruire un agente vocale AI che risponde in modo fluido come un essere umano richiede una voce artificiale che inizi a parlare quasi istantaneamente — non dopo uno o due secondi di attesa. Cartesia Sonic è progettato esattamente per questo caso d'uso.
Con una latenza di soli 50 millisecondi dal momento in cui l'LLM inizia a generare testo, Sonic produce i primi token audio quasi in tempo reale. Il voice cloning funziona senza richiedere fine-tuning: bastano pochi secondi di audio di riferimento per clonare una voce e usarla immediatamente.
Il prodotto è pensato per sviluppatori che costruiscono agenti vocali in produzione — call center AI, assistenti vocali, sistemi di risposta automatica — dove la latenza fa la differenza tra un'interazione fluida e una frustrante.
Aziende
Cartesia
Tool
Sonic, Cartesia TTS
Tag
Fonti