El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content
Speech & Audio

Adaptación de información de entropía regularizada con redes con conciencia temporal para la traducción simultánea del habla

View Publication

Author

Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana

Venue

Interspeech 2026

Abstract

La traducción simultánea del habla (SimulST) requiere equilibrar una alta calidad de traducción con una baja latencia. En trabajos recientes se ha presentado REINA, un método que entrena una política de lectura/escritura basada en la estimación de la ganancia de información que supone leer más audio. Sin embargo, hemos observado que las políticas basadas en la información suelen carecer de contexto temporal, lo que lleva a la política a inclinarse por leer la mayor parte del audio antes de empezar a escribir. Mejoramos REINA utilizando dos estrategias distintas: una red de alineación supervisada (REINA-SAN) y una red aumentada por pasos de tiempo (REINA-TAN). Nuestros resultados demuestran que, si bien ambos métodos superan significativamente a la línea de base y resuelven los problemas de estabilidad, REINA-TAN proporciona una frontera de Pareto ligeramente superior en cuanto a eficiencia de streaming, mientras que REINA-SAN ofrece mayor robustez frente a los «bucles de lectura». Aplicados a Whisper, ambos métodos mejoran la frontera de Pareto de la eficiencia de streaming, medida por las puntuaciones de Eficiencia de Streaming Normalizada (NoSE), hasta un 7,1 % con respecto a las líneas de base competitivas existentes.