الكشف عن السمية الصوتية باستخدام التعلم متعدد المهام
Author
Venue
IEEE ICASSP '24
Abstract
يجب أن تحدد أنظمة التواصل الاجتماعي الأصوات السامة لدعم الإشراف الذي يحمي سلامة ومدنية مجتمعاتها. يعتمد تصنيف السمية الصوتية على كل من أسلوب الصوت، مثل الحجم والنبرة، والمحتوى، مثل الكلمات في الكلام بشكل فردي وفي السياق. نقدم نموذجًا جديدًا للتعلم متعدد المهام (MTL) من البداية إلى النهاية للكشف عن السمية القائمة على الصوت، والذي يعالج التحديات المرتبطة بأنظمة التعرف التلقائي على الكلام (ASR) والأنظمة القائمة على النص الحالية. من خلال استخدام بنية أساسية صلبة لمشاركة المعلمات ومحولات مهام مرنة ذات انتباه مرن، يؤدي نموذجنا مهمتين: مهمة تصنيف السمية متعددة العلامات التي تستهدف فئات محددة من السلوك السام، ومهمة مساعدة للكشف عن الكلمات المفتاحية في الصوت تركز على نسخ الكلمات المفتاحية السامة فقط، مما يعزز الكفاءة الحسابية ويكمل ناتج التصنيف. نلاحظ أن المصنف يحسن بشكل كبير جودة الكشف عن الكلمات المفتاحية. كما نساهم في إنشاء مسار بيانات للتصنيف التلقائي لمجموعات التدريب دون اتصال بالإنترنت.
