Regularizowana adaptacja informacji o entropii z wykorzystaniem sieci uwzględniających czas w celu jednoczesnego tłumaczenia mowy
Author
Venue
Interspeech 2026
Abstract
Tłumaczenie symultaniczne mowy (SimulST) wymaga znalezienia równowagi między wysoką jakością tłumaczenia a niskim opóźnieniem. W ostatnich pracach wprowadzono metodę REINA, która trenuje politykę odczytu/zapisu w oparciu o oszacowanie przyrostu informacji wynikającego z odczytania większej ilości danych audio. Stwierdziliśmy jednak, że polityki oparte na informacjach często nie uwzględniają kontekstu czasowego, co prowadzi do tego, że polityka ta faworyzuje odczytanie większości danych audio przed rozpoczęciem zapisu. Ulepszamy REINA za pomocą dwóch odrębnych strategii: nadzorowanej sieci dopasowującej (REINA-SAN) oraz sieci wzbogaconej o kroki czasowe (REINA-TAN). Nasze wyniki pokazują, że chociaż obie metody znacznie przewyższają wyniki bazowe i rozwiązują problemy ze stabilnością, REINA-TAN zapewnia nieco lepszą granicę Pareto dla wydajności strumieniowania, podczas gdy REINA-SAN oferuje większą odporność na „pętle odczytu”. W zastosowaniu do Whisper obie metody poprawiają granicę Pareto wydajności strumieniowania, mierzoną wynikami Normalized Streaming Efficiency (NoSE), nawet o 7,1% w porównaniu z istniejącymi konkurencyjnymi wynikami bazowymi.
