تحسين الكشف عن السموم اللفظية متعددة اللغات من خلال مطابقة الكلام والنص
Author
Venue
Interspeech 2024
Abstract
يعتمد تصنيف السمية الصوتية بشكل كبير على المحتوى الدلالي للكلام. نقترح إطار عمل جديدًا يستخدم التعلم عبر الحواس لدمج التضمين الدلالي للنص في مصنف سمية الكلام متعدد التسميات أثناء التدريب. وهذا يمكّننا من دمج المعلومات النصية أثناء التدريب مع الاستمرار في الاكتفاء بالصوت فقط أثناء الاستدلال. نقوم بتقييم هذا المصنف على مجموعات بيانات واسعة النطاق ذات خصائص واقعية للتحقق من فعالية هذا الإطار. من خلال دراسات الاستبعاد، نثبت أن التضمينات الدلالية للنصوص ذات الأغراض العامة غنية ومتوافقة مع الكلام لأغراض تصنيف السمية. من خلال إجراء تجارب على نطاق واسع عبر لغات متعددة، نظهر تحسينات في تصنيف سمية الصوت عبر خمس لغات وفئات سمية مختلفة.
