Natural Language Processing
Speech & Audio
用於高效多語言語音轉語音翻譯的擴散合成器
Author
Venue
Interspeech 2024
Abstract
我們提出 DiffuseST,這是一個低延遲的直接語音對語音翻譯系統,能夠在將多種源語言翻譯成英語的同時,無需預訓練即可完整保留輸入說話者的聲音特徵。我們針對該架構的合成器組件進行實驗,將基於 Tacotron 的合成器與一種新型的基於擴散的合成器進行比較。 我們發現,基於擴散的合成器在維持相近 BLEU 分數的同時,將 MOS 和 PESQ 音質指標分別提升了 23%,並使發言人相似度提高了 5%。儘管參數數量超過兩倍,擴散合成器的延遲卻更低,使整個模型的運行速度比即時處理快了 5 倍以上。
