このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Speech & Audio

同時音声翻訳のための時系列認識ネットワークを用いた正規化エントロピー情報の適応

View Publication

Author

ジョセフ・リウ、ナミール・ハーシュキンド、シャオ・ユー、マヘシュ・クマール・ナンドワナ

Venue

Interspeech 2026

Abstract

同時通訳(SimulST)では、高い翻訳品質と低遅延のバランスをとることが求められます。最近の研究では、より多くの音声を読み込むことによる情報利得を推定して読み書きポリシーを学習させる手法「REINA」が提案されました。しかし、我々の調査によると、情報に基づくポリシーは時間的文脈を欠くことが多く、その結果、書き込みを開始する前に音声の大部分を読み込む方向に偏りが生じることが判明しました。 我々は、教師ありアライメントネットワーク(REINA-SAN)とタイムステップ拡張ネットワーク(REINA-TAN)という2つの異なる戦略を用いてREINAを改善した。 我々の結果によると、両手法ともベースラインを大幅に上回り、安定性の問題を解決しているが、REINA-TANはストリーミング効率においてわずかに優れたパレート・フロンティアを提供する一方、REINA-SANは「読み取りループ」に対するより高い頑健性を示す。Whisperへの適用において、両手法とも正規化ストリーミング効率(NoSE)スコアで測定されたストリーミング効率のパレート・フロンティアを、既存の競合ベースラインと比較して最大7.1%向上させた。