Adaptación de información de entropía regularizada con redes con conciencia temporal para la traducción simultánea del habla
Author
Venue
Interspeech 2026
Abstract
La traducción simultánea del habla (SimulST) requiere equilibrar una alta calidad de traducción con una baja latencia. En trabajos recientes se ha presentado REINA, un método que entrena una política de lectura/escritura basada en la estimación de la ganancia de información que supone leer más audio. Sin embargo, hemos observado que las políticas basadas en la información suelen carecer de contexto temporal, lo que lleva a la política a inclinarse por leer la mayor parte del audio antes de empezar a escribir. Mejoramos REINA utilizando dos estrategias distintas: una red de alineación supervisada (REINA-SAN) y una red aumentada por pasos de tiempo (REINA-TAN). Nuestros resultados demuestran que, si bien ambos métodos superan significativamente a la línea de base y resuelven los problemas de estabilidad, REINA-TAN proporciona una frontera de Pareto ligeramente superior en cuanto a eficiencia de streaming, mientras que REINA-SAN ofrece mayor robustez frente a los «bucles de lectura». Aplicados a Whisper, ambos métodos mejoran la frontera de Pareto de la eficiencia de streaming, medida por las puntuaciones de Eficiencia de Streaming Normalizada (NoSE), hasta un 7,1 % con respecto a las líneas de base competitivas existentes.
