Adaptasi Informasi Entropi yang Diregulasi dengan Jaringan yang Memperhatikan Waktu untuk Penerjemahan Suara Simultan
Author
Venue
Interspeech 2026
Abstract
Terjemahan Ucapan Simultan (SimulST) memerlukan keseimbangan antara kualitas terjemahan yang tinggi dengan latensi yang rendah. Penelitian terbaru memperkenalkan REINA, sebuah metode yang melatih kebijakan Baca/Tulis berdasarkan estimasi keuntungan informasi dari membaca lebih banyak audio. Namun, kami menemukan bahwa kebijakan berbasis informasi sering kali kurang memiliki konteks temporal, sehingga kebijakan tersebut cenderung lebih memilih untuk membaca sebagian besar audio sebelum mulai menulis. Kami meningkatkan REINA menggunakan dua strategi berbeda: jaringan penyelarasan terawasi (REINA-SAN) dan jaringan yang diperluas berdasarkan langkah waktu (REINA-TAN). Hasil kami menunjukkan bahwa meskipun kedua metode secara signifikan mengungguli baseline dan mengatasi masalah stabilitas, REINA-TAN memberikan batas Pareto yang sedikit lebih unggul untuk efisiensi streaming, sedangkan REINA-SAN menawarkan ketahanan yang lebih baik terhadap 'loop pembacaan'. Ketika diterapkan pada Whisper, kedua metode meningkatkan batas Pareto efisiensi streaming yang diukur dengan skor Normalized Streaming Efficiency (NoSE) hingga 7,1% dibandingkan dengan baseline kompetitif yang ada.
