تمت ترجمة المحتوى الموجود على هذا الموقع باستخدام الذكاء الاصطناعي (AI) أو تقنية الترجمة الآلية، وقد تحتوي على أخطاء.

Skip to content

استخدام التعلم الآلي لضمان سلامة الصوت

مهمتنا هي ربط مليار شخص بالتفاؤل والكياسة، وهو ما يتطلب منا مساعدة الناس على الشعور بالترابط الحقيقي مع بعضهم البعض. بالنسبة للعوالم ثلاثية الأبعاد الغامرة، تمامًا كما هو الحال في العالم المادي، قليلة هي الأشياء التي تضاهي الصوت البشري في صياغة صداقات وعلاقات دائمة من حيث الأصالة والقوة. ولكن كيف يمكننا توسيع نطاق الانغماس والغنى في التواصل الصوتي على Roblox مع الحفاظ على سلامة مجتمعنا وكياسته؟

في هذا المدونة، سنشارك كيف أطلقنا "الأمان في الوقت الفعلي"، وهو نموذج تعلم آلي شامل — يعمل على نطاق ملايين الدقائق من النشاط الصوتي يوميًا — يكتشف انتهاكات السياسة في التواصل الصوتي بدقة أكبر من الإشراف البشري. يتم إدخال مخرجات هذا النظام في نموذج آخر، والذي يحدد العواقب المناسبة. يُطلق نموذج العواقب إشعارات للأشخاص الذين انتهكوا سياساتنا، في البداية بتحذيرات ثم بإجراءات أكثر صرامة إذا استمر السلوك.

كان نظام "الأمان في الوقت الفعلي" الشامل هذا هدفًا جريئًا، حيث إننا من أوائل الشركات في هذا المجال التي تقدم للمستخدمين ميزات أمان صوتية متعددة اللغات وشبه فورية. يعتمد تصنيف الصوت على كل من أسلوب الصوت، بما في ذلك مستوى الصوت والنبرة، والمحتوى، بما في ذلك الكلمات المنطوقة. يسعدنا أن نشارككم كيف طورنا هذا النظام من لا شيء تقريبًا من حيث الأتمتة — أي عدم وجود بيانات مصنفة ونماذج — وانتقلنا من الصفر إلى 60 في مجال السلامة الصوتية في الوقت الفعلي.

وأخيرًا، يسعدنا مشاركة أول نموذج مفتوح المصدر لدينا، وهو أحد نماذج السلامة الصوتية لدينا. من خلال إتاحة هذا النموذج كمصدر مفتوح وجعله متاحًا للاستخدام التجاري، نأمل في توفير أساس مرجعي للصناعة لاكتشاف انتهاكات السياسات، مما قد يسرع من تطوير نماذج تعلم آلي أحدث للسلامة الصوتية. هذا النموذج مفتوح المصدر هو نسختنا الأولى، وقد أجرينا منذ ذلك الحين تحسينات كبيرة نقوم باختبارها حاليًا.

التغلب على ندرة البيانات

بدأنا جهودنا في مجال التعلم الآلي كما تفعل العديد من الشركات، من خلال تقييم جودة البيانات المتاحة للتدريب وتقييم نماذجنا. سيتضمن الاقتران المثالي لمجموعات البيانات العبارات الصوتية إلى جانب تصنيف أمان عالي الجودة ومصنف لتلك العبارات. ومع ذلك، عندما بدأنا، لم يكن لدينا تقريبًا أي بيانات واقعية واسعة النطاق مصنفة يدويًا. لتدريب نموذج عالي الجودة للكشف عن سلامة الصوت باستخدام نهج خاضع للإشراف، كنا بحاجة إلى آلاف الساعات الصوتية من البيانات المصنفة لكل لغة ندعمها، وهو ما كان سيستغرق سنوات لجمعه وكان سيستهلك موارد ووقتًا هائلين.

بدلاً من الاعتماد على آلاف الساعات من البيانات المصنفة يدويًا، قمنا بتطوير عدة طرق أكثر كفاءة:

  • بيانات مصنفة آليًا للتدريب. بدلاً من التوقف عند السعي وراء بيانات مصنفة يدويًا مثالية للتدريب، اخترنا كمية كبيرة من بيانات التدريب من التصنيف الآلي للعبارات الصوتية. أدى استخدام كميات كبيرة من البيانات المصنفة آليًا مع إشراف ضعيف إلى إنشاء نماذج تدريب قوية في مواجهة بعض الضوضاء في التصنيفات. كانت مفاتيح نجاح هذا النهج هي الوصول إلى مكتبات مفتوحة المصدر رائعة لتحويل الكلام إلى نص، وسنوات من الخبرة في استخدام التعلم الآلي للكشف عن انتهاكات معايير المجتمع في الاتصالات النصية للأشخاص. سمح لنا نهج التصنيف الآلي هذا بتصنيف حجم بيانات التدريب التي احتجناها لنماذجنا في غضون أسابيع بدلاً من سنوات.
  • البيانات المصنفة يدويًا للتقييم. على الرغم من أن البيانات المصنفة آليًا عالية الجودة، وإن كانت غير كاملة، كانت جيدة بما يكفي لتدريب نموذج عالي الأداء، إلا أننا لم نثق في التصنيفات الآلية لإجراء التحقق النهائي من النموذج الناتج. كان السؤال التالي، إذن، هو من أين يمكننا الحصول على بيانات مصنفة يدويًا كافية للتقييم. لحسن الحظ، في حين كان من المستحيل جمع بيانات مصنفة يدويًا كافية للتدريب في الوقت المناسب، كان من الممكن جمع ما يكفي لتقييم نموذجنا باستخدام المشرفين الداخليين لدينا، الذين كانوا بالفعل يصنفون تقارير الإساءة الواردة من المستخدمين على Roblox لإصدار عقوبات يدويًا. وقد سمح لنا ذلك بالاستفادة من أفضل ما في كلا العالمين: بيانات تدريب مصنفة آليًا كانت جيدة ووفيرة بما يكفي لإنتاج نموذج عالي الأداء، وبيانات تقييم مصنفة يدويًا كانت أصغر حجمًا بكثير ولكنها أكثر من كافية لمنحنا الثقة في أن النموذج يعمل بالفعل.

كان مجال آخر واجهنا فيه ندرة البيانات هو فئات انتهاك السياسات التي لدينا فيها انتشار منخفض جدًا، مثل الإشارات إلى المخدرات والكحول أو إيذاء النفس. لمعالجة هذه المشكلة، قمنا بدمج عدة فئات منخفضة الانتشار في فئة "أخرى". ونتيجة لذلك، تمكن نموذجنا النهائي من تحديد فئات الألفاظ البذيئة، والتسلط، والتمييز، والمواعدة، و"أخرى". من أجل فهم هذه الفئات "الأخرى"، حتى نتمكن من حماية مجتمعنا بشكل أفضل وضمان حوار آمن ومتحضر على Roblox، سنواصل مراقبة هذه الفئات للحصول على المزيد من الأمثلة. بمرور الوقت، ستصبح الفئات الفرعية في "أخرى" فئات مسماة أيضًا عندما يصل عدد أمثلة التدريب في تلك الفئات الفرعية إلى حد معين.

خط أنابيب التصنيف الآلي لبيانات التدريب

لقد صممنا مسارًا آليًا للتصنيف الآلي لاستخراج تصنيفات عالية الجودة من تسلسلات الدردشة الصوتية. يتكون مسارنا من ثلاث مراحل:

  1. تقسيم المقاطع الصوتية. تتضمن المرحلة الأولى من المسار تقسيم الصوت إلى مقاطع، أو أجزاء أقصر، حيثما نكتشف فترات صمت بين الجمل. وهذا يسمح لنا بتحديد وتصنيف المحتوى الذي ينتهك السياسة بشكل أكثر كفاءة.
  2. نسخ الصوت. تتكون المرحلة الثانية من خط الأنابيب من نسخ هذه المقاطع الصوتية إلى نص باستخدام نموذج التعرف التلقائي على الكلام (ASR). نستخدم نماذج ASR مفتوحة المصدر متاحة للجمهور.
  3. تصنيف النص. تتضمن المرحلة الأخيرة من العملية تصنيف النص الذي تم نسخه باستخدام مرشح النص الداخلي الخاص بنا. تم تصميم هذا المرشح لاكتشاف وحظر المحتوى غير اللائق في الاتصالات النصية. قمنا بتكييف المرشح ليعمل مع البيانات الصوتية التي تم نسخها، مما يسمح لنا بتصنيف المقاطع الصوتية حسب فئات انتهاك السياسة والكلمات المفتاحية. مرشح النص هو نموذج مجمع تم تدريبه على بيانات نصية مخالفة للسياسة تم تصنيفها يدويًا، ويتألف من نموذج DistilBERT موسع وقواعد تعبير عادية.

من المهم ملاحظة أن هذا المسار تم استخدامه فقط لتوليد بيانات التدريب لنموذج الإنتاج النهائي الخاص بنا. ومع ذلك، قد تتساءل، لماذا يتم تدريب النموذج على الإطلاق إذا كان هناك بالفعل مسار هنا يولد العلامات التي نبحث عنها؟ الجواب هو الكفاءة — نحن بحاجة إلى أن نكون دقيقين للغاية، في وقت أقل بكثير. على نطاق Roblox، سيكون استدعاء ASR لنسخ جميع الاتصالات الصوتية بطيئًا للغاية ويستهلك موارد كثيرة. ومع ذلك، فإن نموذج ML المضغوط الذي تم تدريبه من هذه البيانات، والمصمم خصيصًا لاكتشاف انتهاكات السياسة في الاتصالات الصوتية دون إجراء نسخ كامل، يتمتع بنفس الدقة، ولكنه أسرع بكثير ويمكن استخدامه على نطاق Roblox.

توسيع نطاق خط أنابيب وضع العلامات الآلية

في معظم مبادرات الذكاء الاصطناعي الكبيرة، تكون آلية الحصول على بيانات تدريب عالية الجودة هي نفسها نظام تعلم آلي إنتاجي، والذي يجب إنشاؤه من الصفر. بالنسبة لهذا المشروع، كنا بحاجة إلى تطوير خط أنابيب التصنيف الآلي الخاص بنا كنظام إنتاج من الدرجة الأولى يعمل على مدار الساعة طوال أيام الأسبوع، مع القدرة على التوسع إلى آلاف وحدات المعالجة المركزية (CPU) المتزامنة أو أعداد مكافئة من وحدات معالجة الرسومات (GPU). قمنا بتنفيذ مجموعة بيانات تدريب تضم آلاف نوى المعالجة المركزية التي تعالج تلقائيًا تدفقات الصوت الواردة بالتوازي لتوليد تصنيفات آلية. كان لا بد أن يعمل هذا النظام بشكل لا تشوبه شائبة لتحقيق أقصى إنتاجية، وأي أخطاء أو فترات توقف قد تؤدي إلى ضياع أيام أو أسابيع من الوقت في توليد بيانات التدريب.

فيما يلي نظرة عامة عالية المستوى على البنية التي دعمت التوسع الذي احتجناه لتصنيف عشرات الآلاف من ساعات الصوت آليًا في غضون أسابيع قليلة فقط. كان الدرس الرئيسي المستفاد هنا هو أن الاستثمار في قوائم الانتظار في نقاط رئيسية في معالجتنا سمح لنا بإزالة الاختناقات عن طريق التوسع الأفقي لخيوط العمل عبر العديد من الأجهزة. قامت خيوط العمل هذه بخطوات تقسيم مقاطع الصوت، ونسخ الصوت، وتصنيف النص المذكورة في القسم السابق.

بنية التعلم الآلي

كان أحد المتطلبات الأساسية لبحثنا عن النموذج هو انخفاض زمن الاستجابة، أي سرعات قريبة من الوقت الفعلي لاستدلال النموذج، مما قادنا إلى بنى تعمل مباشرة على الصوت الخام وتُرجع نتيجة. نستخدم بنى قائمة على Transformer، والتي تعمل بشكل جيد جدًا في تلخيص التسلسلات وتحقق نجاحًا كبيرًا في الصناعة في معالجة اللغة الطبيعية (NLP) ونمذجة الصوت. كان التحدي الذي واجهناه هو إيجاد نقطة التوازن المثالية بين التعقيد والاستدلال منخفض الكمون، أي التعامل مع لغات متعددة بالإضافة إلى اللهجات، ومقاومة الضوضاء الخلفية، وجودة الصوت، مع تلبية قيود الكمون الخاصة بمنتجنا.

اختيار النموذج

كان السؤال التصميمي المباشر هو تحديد حجم نافذة السياق اللازمة لتدريب نماذج Transformer. درسنا الرسم البياني لطول العبارات في بيانات الدردشة الصوتية على مدار عدة أيام من الاستخدام، وخلصنا إلى أن نافذة مدتها 15 ثانية توفر التوازن بين زمن الاستجابة والسياق الكافي اللازم للتصنيف. نستخدم "عدم الانتهاك" كفئة للكشف عن عدم وجود انتهاكات للسياسة. ونظرًا لأن مقطع صوتي واحد يمكن أن يجسد أنواعًا متعددة من الانتهاكات، فإن المهمة تصبح بطبيعتها متعددة التسميات بدلاً من أن تكون مشكلة تصنيف تقليدية متعددة الفئات. وقمنا بضبط الشبكة بأكملها، بما في ذلك الطبقات الرئيسية لهذه المهمة، باستخدام خسارة الانتروبيا المتقاطعة الثنائية (BCE). 

التعليق: رسم بياني للعبارات الصوتية المستمدة من بيانات الدردشة، يوضح أن 75 في المائة من العبارات تقل مدتها عن 15 ثانية.

قمنا بتقييم العديد من نماذج التشفير مفتوحة المصدر الشائعة من مجتمع أبحاث الصوت وقمنا بتضييق خياراتنا إلى WavLM و Whisper. كانت تجربتنا الأولى هي ضبط WavLM base+ المُدرّب مسبقًا باستخدام 2300 ساعة من بيانات الصوت المُصنّفة آليًا من Roblox وتقييم نتائج التصنيف على مجموعتين من بيانات التقييم الواقعية. حصلنا على نتائج تصنيف مشجعة للغاية (انظر تقييم النموذج، أدناه)، لكننا وجدنا أن زمن الاستجابة كان أكبر من عتباتنا للنشر في الإنتاج. كمتابعة، قمنا بتنفيذ نسخة مخصصة من بنية WavLM مع طبقات Transformer أقل وقمنا بتدريب نموذج شامل من الصفر على 7,000 ساعة من بيانات الصوت الموسومة آليًا من Roblox. يقدم هذا النموذج تصنيفات قوية في سياقات المحادثة وكان أكثر إيجازًا مقارنةً بالنموذج المُحسّن. استخدم نموذجنا المرشح النهائي إعداد تقطير الطالب-المعلم، مع مشفر Whisper كشبكة المعلم وبنية WavLM الشاملة كشبكة الطالب. عندما قمنا بتدريبه على 4,000 ساعة من الصوت، لاحظنا دقة تصنيف مماثلة للنموذج المضبوط بدقة، ولكن مع تحسن كبير في زمن الاستجابة وتقليل حجم النموذج. تلخص الصورة أدناه معلمات النموذج للتجارب الثلاث الموضحة أعلاه. نواصل تكرار استراتيجيات أخذ عينات البيانات واستراتيجيات التقييم والمعلمات الفائقة للنموذج بينما نقوم بتوسيع النماذج لتصنيف سلامة الصوت متعدد اللغات.

حجم مجموعة البيانات

حجم النموذج

زمن الاستدلال/ ثانية من الإدخال

عامل الوقت الفعلي 

WavLM المُحسّن

2300 ساعة

96 مليون معلمة

102 مللي ثانية

9.80

تدريب شامل

7071 ساعة

52 مليون معلمة

83 مللي ثانية

12.08

مُكرر

4080 ساعة 

48 مليون معلمة

50 مللي ثانية

19.95

تحسين النموذج 

استخدمنا أساليب صناعية قياسية، بما في ذلك تكمية طبقات محددات محولات مختارة لتحقيق زيادة في السرعة تزيد عن 25 في المائة دون المساس بالجودة. كما أدى تحويل مرحلة استخراج الميزات إلى مدخلات MFCC مقترنة بشبكات عصبية تلافيفية (CNNs) بدلاً من استخدام الشبكات العصبية التلافيفية وحدها إلى زيادة في السرعة تزيد عن 40 في المائة أثناء الاستدلال. بالإضافة إلى ذلك، أدى إدخال نموذج الكشف عن نشاط الصوت (VAD) كخطوة ما قبل المعالجة إلى زيادة كبيرة في متانة المسار العام، خاصة بالنسبة للمستخدمين الذين يعانون من ضوضاء في الميكروفونات. سمح لنا VAD بتصفية الضوضاء وتطبيق مسار الأمان الخاص بنا فقط عندما نكتشف كلامًا بشريًا في الصوت، مما أدى إلى تقليل الحجم الإجمالي للاستدلال بنسبة 10 في المائة تقريبًا وتوفير مدخلات عالية الجودة لنظامنا. 

تقييم النموذج

على الرغم من أننا استخدمنا العديد من مجموعات البيانات والمقاييس المختلفة للتقييم، يمكننا مشاركة أداء مصنف الصوت الخاص بنا على مجموعة بيانات باللغة الإنجليزية ذات انتشار عالٍ لانتهاكات السياسة (مثل ما نجده في تقارير إساءة استخدام الصوت من المستخدمين). تم تصنيف هذه المجموعة من البيانات بنسبة 100 في المائة بواسطة المشرفين لدينا. عندما قمنا بدمج جميع أنواع الانتهاكات (الألفاظ البذيئة، والتسلط، والمواعدة، وما إلى ذلك) في فئة ثنائية واحدة، لاحظنا درجة PR-AUC (المساحة تحت منحنى الدقة والاسترجاع) تزيد عن 0.95، كما هو موضح أدناه. وهذا يعني أنه في مجموعة بيانات التقييم هذه، يمكن للمصنف عادةً اكتشاف الغالبية العظمى من الانتهاكات دون الإبلاغ الخاطئ عن عدد كبير جدًا من الحالات غير المخالفة.

ومع ذلك، فإن نتائج التقييم القوية المذكورة أعلاه لا تنطبق بالضرورة بشكل مباشر على جميع حالات الاستخدام. على سبيل المثال، في حالة إخطاراتنا بشأن الخطاب الذي ينتهك السياسة، يقوم المصنف بتقييم جميع محادثات Roblox الصوتية ويجد معدل انتشار أقل للانتهاكات، وهناك احتمال أكبر لظهور نتائج إيجابية خاطئة. في حالة البلاغات عن الإساءة الصوتية، يقوم المصنف بتقييم الخطاب الذي تم الإبلاغ عنه لانتهاكات محتملة فقط، لذا يكون معدل الانتشار أعلى. ومع ذلك، كانت النتائج المذكورة أعلاه مشجعة بما يكفي لكي نبدأ تجارب مع المصنف في مرحلة الإنتاج (بحدود دنيا متحفظة) لإخطار المستخدمين بشأن لغتهم التي تنتهك السياسة. وقد فاقت نتائج هذه التجارب توقعاتنا بشكل كبير.

ما هي الخطوة التالية؟

من خلال الاستفادة من البنية التحتية الخاصة بنا للمعالجات المركزية (CPU) وتصميم مسار العمل بعناية لتناسب النطاق الواسع، تمكنا من نشر هذا النموذج بنجاح على نطاق Roblox. خلال ساعات الذروة، ينجح النموذج في تلبية أكثر من 2,000 طلب في الثانية (لا تحتوي غالبيتها على أي انتهاكات). كما لاحظنا انخفاضًا كبيرًا في السلوك الذي ينتهك السياسة على المنصة بفضل استخدام النموذج لإخطار المستخدمين باللغة التي تنتهك السياسة. وعلى وجه الخصوص، منذ بدء التشغيل الأولي، نشهد انخفاضًا بنسبة 15.3 في المائة في بلاغات الإساءة اللفظية الشديدة وانخفاضًا بنسبة 11.4 في المائة في الانتهاكات لكل دقيقة من الكلام.

نقوم بتوسيع نطاق نماذجنا باستخدام بيانات تدريب متعددة اللغات، مما يسمح لنا بنشر نموذج تصنيف واحد عبر المنصة للتعامل مع عدة لغات بالإضافة إلى خلط اللغات. كما نستكشف أيضًا بنى جديدة متعددة المهام لتحديد كلمات رئيسية محددة بالإضافة إلى هدف التصنيف دون اللجوء إلى ASR الكامل. يؤدي اكتشاف هذه الكلمات الرئيسية بالإضافة إلى علامات الانتهاك إلى تحسين جودة التصنيف ويوفر فرصة لتزويد الأشخاص بالسياق أثناء إصدار العقوبات.

كان البحث الموصوف هنا جهدًا مشتركًا بين العديد من الفرق في Roblox. كان هذا عرضًا رائعًا لقيمتنا الأساسية المتمثلة في احترام المجتمع وتعاونًا رائعًا عبر تخصصات متعددة.