Bu sitedeki içerik yapay zeka (AI) veya makine çeviri teknolojisi kullanılarak çevrilmiştir ve hatalar içerebilir.

Skip to content
Speech & Audio

Eşzamanlı Konuşma Çevirisi için Zamansal Farkındalık Ağları ile Düzenlenmiş Entropi Bilgisi Uyumlaştırması

View Publication

Author

Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana

Venue

Interspeech 2026

Abstract

Eşzamanlı Konuşma Çevirisi (SimulST), yüksek çeviri kalitesi ile düşük gecikme süresi arasında bir denge kurmayı gerektirir. Son zamanlarda yapılan çalışmalarda, daha fazla ses okumanın bilgi kazancını tahmin etmeye dayalı bir Okuma/Yazma politikası eğiten REINA yöntemi tanıtılmıştır. Ancak, bilgiye dayalı politikaların genellikle zamansal bağlamdan yoksun olduğunu ve bunun da politikanın yazmaya başlamadan önce sesin çoğunu okumaya yönelmesine neden olduğunu tespit ettik. REINA'yı iki farklı strateji kullanarak iyileştiriyoruz: denetimli hizalama ağı (REINA-SAN) ve zaman adımı ile güçlendirilmiş ağ (REINA-TAN). Sonuçlarımız, her iki yöntemin de temel modeli önemli ölçüde geride bıraktığını ve kararlılık sorunlarını çözdüğünü gösterirken, REINA-TAN'ın akış verimliliği açısından biraz daha üstün bir Pareto sınırı sağladığını, REINA-SAN'ın ise 'okuma döngülerine' karşı daha fazla sağlamlık sunduğunu ortaya koymaktadır. Whisper'a uygulandığında, her iki yöntem de Normalize Akış Verimliliği (NoSE) puanlarıyla ölçülen akış verimliliği Pareto sınırını, mevcut rakip temel modellere göre %7,1'e kadar iyileştirmektedir.