Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Speech & Audio

Adaptasi Informasi Entropi yang Diregulasi dengan Jaringan yang Memperhatikan Waktu untuk Penerjemahan Suara Simultan

View Publication

Author

Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana

Venue

Interspeech 2026

Abstract

Terjemahan Ucapan Simultan (SimulST) memerlukan keseimbangan antara kualitas terjemahan yang tinggi dengan latensi yang rendah. Penelitian terbaru memperkenalkan REINA, sebuah metode yang melatih kebijakan Baca/Tulis berdasarkan estimasi keuntungan informasi dari membaca lebih banyak audio. Namun, kami menemukan bahwa kebijakan berbasis informasi sering kali kurang memiliki konteks temporal, sehingga kebijakan tersebut cenderung lebih memilih untuk membaca sebagian besar audio sebelum mulai menulis. Kami meningkatkan REINA menggunakan dua strategi berbeda: jaringan penyelarasan terawasi (REINA-SAN) dan jaringan yang diperluas berdasarkan langkah waktu (REINA-TAN). Hasil kami menunjukkan bahwa meskipun kedua metode secara signifikan mengungguli baseline dan mengatasi masalah stabilitas, REINA-TAN memberikan batas Pareto yang sedikit lebih unggul untuk efisiensi streaming, sedangkan REINA-SAN menawarkan ketahanan yang lebih baik terhadap 'loop pembacaan'. Ketika diterapkan pada Whisper, kedua metode meningkatkan batas Pareto efisiensi streaming yang diukur dengan skor Normalized Streaming Efficiency (NoSE) hingga 7,1% dibandingkan dengan baseline kompetitif yang ada.