Adaptação de Informações de Entropia Regularizada com Redes de Consciência Temporal para Tradução Simultânea de Fala
Author
Venue
Interspeech 2026
Abstract
A tradução simultânea de fala (SimulST) requer o equilíbrio entre alta qualidade de tradução e baixa latência. Trabalhos recentes introduziram o REINA, um método que treina uma política de leitura/gravação com base na estimativa do ganho de informação obtido ao ler mais áudio. No entanto, constatamos que políticas baseadas em informação frequentemente carecem de contexto temporal, levando a política a se inclinar para a leitura da maior parte do áudio antes de começar a gravar. Melhoramos o REINA usando duas estratégias distintas: uma rede de alinhamento supervisionada (REINA-SAN) e uma rede com intervalos de tempo aumentados (REINA-TAN). Nossos resultados demonstram que, embora ambos os métodos superem significativamente a linha de base e resolvam problemas de estabilidade, o REINA-TAN oferece uma fronteira de Pareto ligeiramente superior para a eficiência de streaming, enquanto o REINA-SAN oferece maior robustez contra “loops de leitura”. Aplicados ao Whisper, ambos os métodos melhoram a fronteira de Pareto da eficiência de streaming, medida pelas pontuações de Eficiência de Streaming Normalizada (NoSE), em até 7,1% em relação às linhas de base competitivas existentes.
