本網站內容使用人工智慧(AI)或機器翻譯技術翻譯,可能存在錯誤。

Skip to content
Natural Language Processing
Speech & Audio

用於高效多語言語音轉語音翻譯的擴散合成器

View Publication

Author

Nameer Hirschkind(Roblox)、Xiao Yu(Roblox)、Mahesh Kumar Nandwana(Roblox)、Joseph Liu(Roblox)、Eloi DuBois(Roblox)、Dao Le(Roblox)、Nicolas Thiebaut(Roblox), 科林·辛克萊(Roblox)、凱爾·斯彭斯(Roblox)、查爾斯·尚(Roblox)、佐伊·艾布拉姆斯(Roblox)、摩根·麥奎爾(Roblox)

Venue

Interspeech 2024

Abstract

我們提出 DiffuseST,這是一個低延遲的直接語音對語音翻譯系統,能夠在將多種源語言翻譯成英語的同時,無需預訓練即可完整保留輸入說話者的聲音特徵。我們針對該架構的合成器組件進行實驗,將基於 Tacotron 的合成器與一種新型的基於擴散的合成器進行比較。 我們發現,基於擴散的合成器在維持相近 BLEU 分數的同時,將 MOS 和 PESQ 音質指標分別提升了 23%,並使發言人相似度提高了 5%。儘管參數數量超過兩倍,擴散合成器的延遲卻更低,使整個模型的運行速度比即時處理快了 5 倍以上。