Speech & Audio
동시 음성 번역을 위한 시간 인식 네트워크를 활용한 정규화 엔트로피 정보 적응
Author
Venue
Interspeech 2026
Abstract
동시 음성 번역(SimulST)은 높은 번역 품질과 낮은 지연 시간 사이의 균형을 요구합니다. 최근 연구에서는 더 많은 오디오를 읽는 것의 정보 이득을 추정하여 읽기/쓰기 정책을 훈련하는 방법인 REINA를 소개했습니다. 그러나 정보 기반 정책은 종종 시간적 맥락을 고려하지 못해, 쓰기를 시작하기 전에 오디오의 대부분을 읽으려는 편향을 보일 수 있음을 발견했습니다. 우리는 두 가지 서로 다른 전략, 즉 감독형 정렬 네트워크(REINA-SAN)와 시간 단계 증강 네트워크(REINA-TAN)를 사용하여 REINA를 개선했다. 우리의 결과는 두 방법 모두 기준 모델을 크게 능가하고 안정성 문제를 해결하는 한편, REINA-TAN은 스트리밍 효율성 측면에서 약간 더 우수한 파레토 프론티어를 제공하는 반면, REINA-SAN은 '읽기 루프'에 대해 더 뛰어난 견고성을 제공함을 보여줍니다. Whisper에 적용했을 때, 두 방법 모두 정규화 스트리밍 효율성(NoSE) 점수로 측정된 스트리밍 효율성의 파레토 프론티어를 기존 경쟁 기준 모델 대비 최대 7.1%까지 향상시킵니다.
