このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Natural Language Processing
Speech & Audio

効率的な多言語音声翻訳のための拡散シンセサイザー

View Publication

Author

ネーマー・ハーシュカインド(Roblox)、シャオ・ユー(Roblox)、マヘシュ・クマール・ナンドワナ(Roblox)、ジョセフ・リウ(Roblox)、エロイ・デュボア(Roblox)、ダオ・レ(Roblox)、ニコラス・ティボー(Roblox)、 コリン・シンクレア(Roblox)、カイル・スペンス(Roblox)、チャールズ・シャン(Roblox)、ゾーイ・エイブラムス(Roblox)、モーガン・マクガイア(Roblox)

Venue

Interspeech 2024

Abstract

本論文では、複数のソース言語から英語へ翻訳する際、入力話者の声をゼロショットで維持できる低遅延の直接音声翻訳システム「DiffuseST」を提案する。アーキテクチャの合成器コンポーネントについて実験を行い、Tacotronベースの合成器と新規に開発した拡散ベースの合成器を比較した。 その結果、ディフュージョンベースの合成器は、同等のBLEUスコアを維持しつつ、音声品質指標であるMOSおよびPESQをそれぞれ23%向上させ、話者類似度を5%向上させることが判明した。パラメータ数が2倍以上あるにもかかわらず、ディフュージョン合成器はレイテンシが低く、モデル全体の実行速度はリアルタイムの5倍以上となっている。