تكييف معلومات الانتروبيا المنظمة باستخدام شبكات الوعي الزمني للترجمة الفورية للكلام
Author
Venue
Interspeech 2026
Abstract
تتطلب الترجمة الفورية للكلام (SimulST) تحقيق التوازن بين جودة الترجمة العالية وزمن الاستجابة المنخفض. قدمت الأبحاث الحديثة طريقة REINA، وهي طريقة تدرب سياسة القراءة/الكتابة بناءً على تقدير مكاسب المعلومات الناتجة عن قراءة المزيد من الصوت. ومع ذلك، نجد أن السياسات القائمة على المعلومات غالبًا ما تفتقر إلى السياق الزمني، مما يؤدي إلى انحياز السياسة نحو قراءة معظم الصوت قبل البدء في الكتابة. نقوم بتحسين REINA باستخدام استراتيجيتين متميزتين: شبكة محاذاة خاضعة للإشراف (REINA-SAN) وشبكة معززة بخطوات زمنية (REINA-TAN). تُظهر نتائجنا أنه في حين أن كلا الطريقتين تتفوقان بشكل كبير على خط الأساس وتحلان مشكلات الاستقرار، فإن REINA-TAN توفر حدود باريتو أعلى قليلاً لكفاءة البث، في حين توفر REINA-SAN مزيداً من المتانة ضد "حلقات القراءة". عند تطبيقها على Whisper، تعمل كلتا الطريقتين على تحسين حدود باريتو لكفاءة البث وفقاً لقياس درجات كفاءة البث المعيارية (NoSE) بنسبة تصل إلى 7.1% مقارنة بخطوط الأساس التنافسية الحالية.
