28 settembre 2023 Alto Voce & audio · 1 min lettura

AudioPaLM: il primo LLM che processa e genera audio come testo

In una frase AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

I modelli di linguaggio come GPT sono straordinariamente bravi con il testo. Ma come si fa a insegnare a un modello del genere a capire e produrre il parlato — non solo il testo delle parole, ma la voce, il tono, l'identità vocale del parlante?

La risposta classica era usare modelli separati: un sistema per riconoscere il parlato, uno per capire il testo, uno per rispondere, uno per sintetizzare la voce. Ogni passaggio introduce errori e perde informazioni.

AudioPaLM di Google fa qualcosa di diverso: prende PaLM-2, il grande modello linguistico di Google, e gli insegna a leggere e scrivere non solo parole, ma anche "token audio" — pezzi di audio codificati come numeri usando SoundStream. Per il modello è tutto uguale: testo e audio diventano la stessa cosa, sequenze di token.

Il risultato è sorprendente: quando chiedi al modello di tradurre una frase pronunciata in italiano in giapponese, può farlo mantenendo la voce originale del parlante — non solo le parole, ma il timbro, il ritmo, le caratteristiche vocali uniche di quella persona.

AudioPaLM è il blueprint concettuale che ha ispirato la modalità audio di GPT-4o.

Aziende

Google

Tool

—

Tag

AudioPaLMGoogleaudio LLMPaLM-2speech translationvoice preservationaudio tokens

Fonti

https://arxiv.org/abs/2306.12925