AudioPaLM: il primo LLM che processa e genera audio come testo
In una frase AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.
I modelli di linguaggio come GPT sono straordinariamente bravi con il testo. Ma come si fa a insegnare a un modello del genere a capire e produrre il parlato — non solo il testo delle parole, ma la voce, il tono, l'identità vocale del parlante?
La risposta classica era usare modelli separati: un sistema per riconoscere il parlato, uno per capire il testo, uno per rispondere, uno per sintetizzare la voce. Ogni passaggio introduce errori e perde informazioni.
AudioPaLM di Google fa qualcosa di diverso: prende PaLM-2, il grande modello linguistico di Google, e gli insegna a leggere e scrivere non solo parole, ma anche "token audio" — pezzi di audio codificati come numeri usando SoundStream. Per il modello è tutto uguale: testo e audio diventano la stessa cosa, sequenze di token.
Il risultato è sorprendente: quando chiedi al modello di tradurre una frase pronunciata in italiano in giapponese, può farlo mantenendo la voce originale del parlante — non solo le parole, ma il timbro, il ritmo, le caratteristiche vocali uniche di quella persona.
AudioPaLM è il blueprint concettuale che ha ispirato la modalità audio di GPT-4o.
Aziende
Tool
—
Tag
Fonti