Natural Language Processing
Speech & Audio
効率的な多言語音声翻訳のための拡散シンセサイザー
Author
Venue
Interspeech 2024
Abstract
本論文では、複数のソース言語から英語へ翻訳する際、入力話者の声をゼロショットで維持できる低遅延の直接音声翻訳システム「DiffuseST」を提案する。アーキテクチャの合成器コンポーネントについて実験を行い、Tacotronベースの合成器と新規に開発した拡散ベースの合成器を比較した。 その結果、ディフュージョンベースの合成器は、同等のBLEUスコアを維持しつつ、音声品質指標であるMOSおよびPESQをそれぞれ23%向上させ、話者類似度を5%向上させることが判明した。パラメータ数が2倍以上あるにもかかわらず、ディフュージョン合成器はレイテンシが低く、モデル全体の実行速度はリアルタイムの5倍以上となっている。
