I contenuti di questo sito sono stati tradotti mediante intelligenza artificiale (IA) o tecnologia di traduzione automatica e potrebbero contenere errori.

Skip to content
Natural Language Processing
Speech & Audio

Sintetizzatore a diffusione per una traduzione vocale multilingue efficiente

View Publication

Author

Nameer Hirschkind (Roblox), Xiao Yu (Roblox), Mahesh Kumar Nandwana (Roblox), Joseph Liu (Roblox), Eloi DuBois (Roblox), Dao Le (Roblox), Nicolas Thiebaut (Roblox), Colin Sinclair (Roblox), Kyle Spence (Roblox), Charles Shang (Roblox), Zoe Abrams (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Presentiamo DiffuseST, un sistema di traduzione diretta da voce a voce a bassa latenza in grado di preservare la voce dell'oratore di input senza addestramento (zero-shot) durante la traduzione da più lingue di origine verso l'inglese. Abbiamo sperimentato la componente di sintesi dell'architettura, confrontando un sintetizzatore basato su Tacotron con un nuovo sintetizzatore basato sulla diffusione. Abbiamo riscontrato che il sintetizzatore basato sulla diffusione migliora i parametri di qualità audio MOS e PESQ del 23% ciascuno e la somiglianza del parlante del 5%, mantenendo punteggi BLEU comparabili. Nonostante abbia più del doppio del numero di parametri, il sintetizzatore a diffusione ha una latenza inferiore, consentendo all'intero modello di funzionare a una velocità più di 5 volte superiore al tempo reale.