Regulierte Entropie-Informationsanpassung mit zeitbewussten Netzwerken für die simultane Sprachübersetzung
Author
Venue
Interspeech 2026
Abstract
Die simultane Sprachübersetzung (SimulST) erfordert einen Ausgleich zwischen hoher Übersetzungsqualität und geringer Latenz. In einer aktuellen Arbeit wurde REINA vorgestellt, eine Methode, die eine Lese-/Schreib-Richtlinie trainiert, die auf der Schätzung des Informationsgewinns durch das Lesen weiterer Audioinhalte basiert. Wir stellen jedoch fest, dass informationsbasierte Richtlinien oft keinen zeitlichen Kontext berücksichtigen, was dazu führt, dass die Richtlinie dazu neigt, den Großteil des Audios zu lesen, bevor mit dem Schreiben begonnen wird. Wir verbessern REINA mithilfe zweier unterschiedlicher Strategien: eines überwachten Alignment-Netzwerks (REINA-SAN) und eines zeitschritt-erweiterten Netzwerks (REINA-TAN). Unsere Ergebnisse zeigen, dass zwar beide Methoden die Baseline deutlich übertreffen und Stabilitätsprobleme beheben, REINA-TAN jedoch eine etwas bessere Pareto-Grenze für die Streaming-Effizienz bietet, während REINA-SAN eine höhere Robustheit gegenüber „Lese-Schleifen“ aufweist. Bei der Anwendung auf Whisper verbessern beide Methoden die Pareto-Grenze der Streaming-Effizienz, gemessen anhand der Normalized Streaming Efficiency (NoSE)-Werte, um bis zu 7,1 % gegenüber bestehenden konkurrierenden Baselines.
