SeamlessM4T: il modello universale di Meta per la traduzione vocale in 100+ lingue

In una frase SeamlessM4T è il primo sistema multimodale a gestire speech-to-text, text-to-speech e speech-to-speech in oltre 100 lingue con un unico modello, alimentando le funzioni di traduzione in tempo reale di Meta.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Immagina di parlare in italiano e che qualcuno in Giappone ti senta parlare in giapponese, con la tua stessa voce. Non una traduzione meccanica letta da un robot, ma la tua voce, adattata in un'altra lingua.

SeamlessM4T di Meta è il sistema più ambizioso mai costruito per questo scopo: un unico modello che gestisce tutti i tipi di traduzione vocale — dal parlato al testo, dal testo al parlato, e dal parlato al parlato — in oltre 100 lingue diverse.

Prima di questo, ogni compito richiedeva modelli separati, addestrati separatamente, con stili diversi e errori diversi. SeamlessM4T unifica tutto in un singolo sistema che comprende il collegamento tra le lingue a un livello profondo.

La dimensione è imponente: 100+ lingue di input per il parlato, 100+ lingue di output per il testo, e quasi 36 lingue per il parlato in output. Copre lingue che altri sistemi ignorano completamente.

Meta ha anche rilasciato SeamlessStreaming, una versione ottimizzata per la traduzione in tempo reale con bassa latenza, usata nelle funzioni di traduzione di WhatsApp e Facebook Live.