Eşzamanlı Konuşma Çevirisi için Zamansal Farkındalık Ağları ile Düzenlenmiş Entropi Bilgisi Uyumlaştırması
Author
Venue
Interspeech 2026
Abstract
Eşzamanlı Konuşma Çevirisi (SimulST), yüksek çeviri kalitesi ile düşük gecikme süresi arasında bir denge kurmayı gerektirir. Son zamanlarda yapılan çalışmalarda, daha fazla ses okumanın bilgi kazancını tahmin etmeye dayalı bir Okuma/Yazma politikası eğiten REINA yöntemi tanıtılmıştır. Ancak, bilgiye dayalı politikaların genellikle zamansal bağlamdan yoksun olduğunu ve bunun da politikanın yazmaya başlamadan önce sesin çoğunu okumaya yönelmesine neden olduğunu tespit ettik. REINA'yı iki farklı strateji kullanarak iyileştiriyoruz: denetimli hizalama ağı (REINA-SAN) ve zaman adımı ile güçlendirilmiş ağ (REINA-TAN). Sonuçlarımız, her iki yöntemin de temel modeli önemli ölçüde geride bıraktığını ve kararlılık sorunlarını çözdüğünü gösterirken, REINA-TAN'ın akış verimliliği açısından biraz daha üstün bir Pareto sınırı sağladığını, REINA-SAN'ın ise 'okuma döngülerine' karşı daha fazla sağlamlık sunduğunu ortaya koymaktadır. Whisper'a uygulandığında, her iki yöntem de Normalize Akış Verimliliği (NoSE) puanlarıyla ölçülen akış verimliliği Pareto sınırını, mevcut rakip temel modellere göre %7,1'e kadar iyileştirmektedir.
