F5-TTS: voice cloning real-time senza fine-tuning con flow matching e architettura DiTTo

In una frase F5-TTS usa flow matching con architettura DiTTo semplificata per voice cloning zero-shot in tempo reale senza fine-tuning, Apache 2.0, latenza competitiva su GPU consumer.

Verificato Fonte ufficiale

CondividiLinkedIn X

F5-TTS è un sistema TTS open source che clona le voci in tempo reale senza bisogno di addestramenti aggiuntivi: bastano pochi secondi di audio di riferimento e un testo, e il modello genera la frase con la voce della persona indicata. La sua architettura si chiama DiTTo (Diffusion Transformer with Token-level duration) ed è più semplice di quelle dei sistemi precedenti: niente allineamento forzato, niente componenti separati per durata e frequenza — tutto è gestito da un unico flow matching transformer. Gira a velocità real-time su GPU consumer (RTX 3080+) e più veloce del real-time su GPU di fascia alta. Con licenza Apache 2.0 è uno dei migliori voice cloning open source disponibili nel 2025.