O conteúdo deste site foi traduzido usando inteligência artificial (IA) ou tecnologia de tradução automática e pode conter erros.

Skip to content
Speech & Audio

Adaptação de Informações de Entropia Regularizada com Redes de Consciência Temporal para Tradução Simultânea de Fala

View Publication

Author

Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana

Venue

Interspeech 2026

Abstract

A tradução simultânea de fala (SimulST) requer o equilíbrio entre alta qualidade de tradução e baixa latência. Trabalhos recentes introduziram o REINA, um método que treina uma política de leitura/gravação com base na estimativa do ganho de informação obtido ao ler mais áudio. No entanto, constatamos que políticas baseadas em informação frequentemente carecem de contexto temporal, levando a política a se inclinar para a leitura da maior parte do áudio antes de começar a gravar. Melhoramos o REINA usando duas estratégias distintas: uma rede de alinhamento supervisionada (REINA-SAN) e uma rede com intervalos de tempo aumentados (REINA-TAN). Nossos resultados demonstram que, embora ambos os métodos superem significativamente a linha de base e resolvam problemas de estabilidade, o REINA-TAN oferece uma fronteira de Pareto ligeiramente superior para a eficiência de streaming, enquanto o REINA-SAN oferece maior robustez contra “loops de leitura”. Aplicados ao Whisper, ambos os métodos melhoram a fronteira de Pareto da eficiência de streaming, medida pelas pontuações de Eficiência de Streaming Normalizada (NoSE), em até 7,1% em relação às linhas de base competitivas existentes.