Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Speech & Audio

Regularizowana adaptacja informacji o entropii z wykorzystaniem sieci uwzględniających czas w celu jednoczesnego tłumaczenia mowy

View Publication

Author

Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana

Venue

Interspeech 2026

Abstract

Tłumaczenie symultaniczne mowy (SimulST) wymaga znalezienia równowagi między wysoką jakością tłumaczenia a niskim opóźnieniem. W ostatnich pracach wprowadzono metodę REINA, która trenuje politykę odczytu/zapisu w oparciu o oszacowanie przyrostu informacji wynikającego z odczytania większej ilości danych audio. Stwierdziliśmy jednak, że polityki oparte na informacjach często nie uwzględniają kontekstu czasowego, co prowadzi do tego, że polityka ta faworyzuje odczytanie większości danych audio przed rozpoczęciem zapisu. Ulepszamy REINA za pomocą dwóch odrębnych strategii: nadzorowanej sieci dopasowującej (REINA-SAN) oraz sieci wzbogaconej o kroki czasowe (REINA-TAN). Nasze wyniki pokazują, że chociaż obie metody znacznie przewyższają wyniki bazowe i rozwiązują problemy ze stabilnością, REINA-TAN zapewnia nieco lepszą granicę Pareto dla wydajności strumieniowania, podczas gdy REINA-SAN oferuje większą odporność na „pętle odczytu”. W zastosowaniu do Whisper obie metody poprawiają granicę Pareto wydajności strumieniowania, mierzoną wynikami Normalized Streaming Efficiency (NoSE), nawet o 7,1% w porównaniu z istniejącymi konkurencyjnymi wynikami bazowymi.