Sintetizzatore a diffusione per una traduzione vocale multilingue efficiente
Author
Venue
Interspeech 2024
Abstract
Presentiamo DiffuseST, un sistema di traduzione diretta da voce a voce a bassa latenza in grado di preservare la voce dell'oratore di input senza addestramento (zero-shot) durante la traduzione da più lingue di origine verso l'inglese. Abbiamo sperimentato la componente di sintesi dell'architettura, confrontando un sintetizzatore basato su Tacotron con un nuovo sintetizzatore basato sulla diffusione. Abbiamo riscontrato che il sintetizzatore basato sulla diffusione migliora i parametri di qualità audio MOS e PESQ del 23% ciascuno e la somiglianza del parlante del 5%, mantenendo punteggi BLEU comparabili. Nonostante abbia più del doppio del numero di parametri, il sintetizzatore a diffusione ha una latenza inferiore, consentendo all'intero modello di funzionare a una velocità più di 5 volte superiore al tempo reale.
