تمت ترجمة المحتوى الموجود على هذا الموقع باستخدام الذكاء الاصطناعي (AI) أو تقنية الترجمة الآلية، وقد تحتوي على أخطاء.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

الكشف عن السمية الصوتية باستخدام التعلم متعدد المهام

View Publication

Author

ماهيش كومار ناندوانا (Roblox)، ييفان هي (Roblox + جامعة كارنيجي ميلون)، جوزيف ليو (Roblox)، شياو يو (Roblox)، تشارلز شانغ (Roblox)، إيلوي دو بوا (Roblox)، مورغان ماكغواير (Roblox)، وكيران بات (Roblox)

Venue

IEEE ICASSP '24

Abstract

يجب أن تحدد أنظمة التواصل الاجتماعي الأصوات السامة لدعم الإشراف الذي يحمي سلامة ومدنية مجتمعاتها. يعتمد تصنيف السمية الصوتية على كل من أسلوب الصوت، مثل الحجم والنبرة، والمحتوى، مثل الكلمات في الكلام بشكل فردي وفي السياق. نقدم نموذجًا جديدًا للتعلم متعدد المهام (MTL) من البداية إلى النهاية للكشف عن السمية القائمة على الصوت، والذي يعالج التحديات المرتبطة بأنظمة التعرف التلقائي على الكلام (ASR) والأنظمة القائمة على النص الحالية. من خلال استخدام بنية أساسية صلبة لمشاركة المعلمات ومحولات مهام مرنة ذات انتباه مرن، يؤدي نموذجنا مهمتين: مهمة تصنيف السمية متعددة العلامات التي تستهدف فئات محددة من السلوك السام، ومهمة مساعدة للكشف عن الكلمات المفتاحية في الصوت تركز على نسخ الكلمات المفتاحية السامة فقط، مما يعزز الكفاءة الحسابية ويكمل ناتج التصنيف. نلاحظ أن المصنف يحسن بشكل كبير جودة الكشف عن الكلمات المفتاحية. كما نساهم في إنشاء مسار بيانات للتصنيف التلقائي لمجموعات التدريب دون اتصال بالإنترنت.