تمت ترجمة المحتوى الموجود على هذا الموقع باستخدام الذكاء الاصطناعي (AI) أو تقنية الترجمة الآلية، وقد تحتوي على أخطاء.

Skip to content

تشغيل استدلال الذكاء الاصطناعي على نطاق واسع في السحابة المختلطة

  • نمت المجالات التي تستخدم فيها Roblox الذكاء الاصطناعي، ولا سيما الذكاء الاصطناعي التوليدي، بسرعة كبيرة خلال السنوات القليلة الماضية.  
  • نحن في المرحلة الأخيرة من عملية من ثلاث مراحل لبناء وتحسين البنية التحتية اللازمة لدعم هذا المستوى من أدوات الذكاء الاصطناعي. 
  • نشارك الخطوات التي اتخذناها لبناء بنية تحتية سحابية مختلطة قادرة على دعم استدلال التعلم الآلي على نطاق واسع.

في مؤتمر RDC الأسبوع الماضي، أعلنا عن أحدث مشاريعنا في مجال حاضنة الذكاء الاصطناعي: تطوير نموذج أساسي ثلاثي الأبعاد متعدد الوسائط لدعم الإبداع التوليدي. يتطلب دعم الذكاء الاصطناعي لمنصة عالمية ثلاثية الأبعاد غامرة تعمل على مدار الساعة ويستخدمها ملايين الأشخاص قدرًا هائلاً من القوة الحاسوبية. في أوائل عام 2023، كنا ندعم أقل من 50 مسارًا لاستدلال التعلم الآلي (ML). واليوم، تدعم بنيتنا التحتية حوالي 250 من هذه المسارات. ونحن نحتفظ بعشرات الآلاف من وحدات المعالجة المركزية (CPU) وأكثر من ألف وحدة معالجة رسومات (GPU) عبر مركزي بيانات وبنيتنا التحتية السحابية المختلطة لتشغيل كل هذه النماذج. ولم ننتهِ بعد.

لقد شاركنا سابقًا كيف نفكر في الذكاء الاصطناعي التوليدي لمبدعينا، وكيف نستخدم الذكاء الاصطناعي للحفاظ على أمان المستخدمين على Roblox، وكيف تساعد ترجمات الذكاء الاصطناعي الناس في جميع أنحاء العالم على التواصل. لكن هذه ليست سوى أمثلة قليلة: مع وجود ما يقرب من 250 نموذجًا قيد الإنتاج، فإن كل تفاعل تقريبًا على Roblox مدعوم بشكل ما بالذكاء الاصطناعي. عندما يأتي شخص ما إلى Roblox لأول مرة ويبحث عن التجربة التي سينضم إليها، يعمل الذكاء الاصطناعي من خلال أنظمة التوصيات والبحث لدينا. وعندما يختار هذا الشخص تجربة ويضغط على زر التشغيل، تحدد خوارزمية التوفيق لدينا أفضل خادم للانضمام إليه.

يتمتع الملايين من المبدعين بالفعل بإمكانية الوصول إلى قوة أدوات الذكاء الاصطناعي التوليدية الخاصة بنا. باستخدام Assistant، يمكنهم استخدام مطالبات بسيطة لإنشاء نصوص وإجراءات للمساعدة في تسريع إنشاء التجارب. باستخدام أدوات Texture و Material Generator الخاصة بنا، يمكنهم تغيير مظهر وأسلوب الكائنات وتكرارها بسرعة. ونحن ندخل الآن عصر الذكاء الاصطناعي التوليدي رباعي الأبعاد مع الإطلاق الأخير لـ "Avatar Auto Setup"، الذي يبسط عملية إنشاء الصورة الرمزية، مما يوفر على المبدعين ساعات من العمل. اعتبارًا من أغسطس 2024، تم إنتاج ما يقرب من 8% من أجسام الصور الرمزية التي ينشئها المستخدمون (UGC) المنشورة على Roblox باستخدام "Avatar Auto Setup".

نحن ندخل الآن المرحلة الأخيرة من عملية من ثلاث مراحل كانت قيد التنفيذ منذ عدة سنوات. بدأت هذه الرحلة في أواخر عام 2021. في ذلك الوقت، أدى عدم وجود منصة موحدة للذكاء الاصطناعي في Roblox إلى قيام فرق الهندسة ببناء منصات صغيرة خاصة بها واختيار أطر عمل متباينة. شاهدنا فرقًا تعمل على تطوير مكونات أساسية، بما في ذلك سوق الأفاتار والصفحة الرئيسية والبحث، حيث قامت كل منها ببناء هندسة ميزات مخصصة خاصة بها. وبدلاً من الاستفادة من مخزن ميزات مركزي، كانت الفرق تجمع حلولاً مخصصة. علاوة على ذلك، كان كل فريق مثقلًا بعبء تطوير تحسيناته الخاصة والتصدي لتحديات توسيع نطاق الاستدلال بشكل مستقل، دون دعم من منصة أساسية. أبرز هذا النهج المجزأ الحاجة الملحة إلى منصة متماسكة ومركزية لتبسيط عملياتنا وتعزيز الكفاءة على جميع الأصعدة.

المرحلة الأولى: بناء أساس قوي للتعلم الآلي

اعتمدنا Kubeflow في وقت مبكر للاستفادة من حزمة المكونات الأساسية للتعلم الآلي، بما في ذلك دفاتر الملاحظات وخطوط الأنابيب والتجارب غير المتصلة بالإنترنت وتقديم النماذج. كان مخزن الميزات لا يزال ضروريًا، لذا اعتمدنا حلًا من جهة خارجية للبدء. لجعل التعلم الآلي أكثر سهولة للمهندسين في Roblox، قمنا بتطوير roblox-ml، وهي مكتبة Python تقلل بشكل أكبر من تعقيدات نشر النموذج في الإنتاج.

استخدمنا دفاتر Jupyter لتوفير بيئة تطوير مُحسّنة لتكرار النماذج، مع خوادم مُهيأة للوصول إلى البيانات الضرورية وموارد GPU. كان توسيع نطاق مهمة التدريب أو تشغيلها بانتظام لإعادة تدريب النموذج يتطلب منا عمومًا كتابة مسار. مكتبة "roblox-ml" الخاصة بنا مكنت المهندسين من تحويل كود دفاتر الملاحظات بسهولة إلى مسارات Kubeflow عن طريق التقاط لقطة لبيئة التشغيل وكود المصدر دون الحاجة إلى إنشاء صور Docker، وعن طريق اختيار موارد الحوسبة مع تحديد الأولويات، وإعداد الإشعارات، والتعامل مع المصادقة.

لا تكون النماذج فعالة إلا إذا كانت تحتوي على الميزات المناسبة في الوقت المناسب. ساهم مخزن الميزات الخاص بنا في تبسيط عملية تحديد الميزات الجديدة، مع تعزيز مشاركة أكثر من 900 ميزة عبر أكثر من 100 خدمة ميزات. وقد سمح ذلك للفرق بإنشاء نماذج جديدة ونشرها بسرعة أكبر مع نمو مجموعة الميزات لدينا.

بمجرد أن أصبحت منصة خطوط أنابيب التعلم الآلي لدينا تعمل بشكل مستقر، لاحظنا زيادة في الطلب على دعم الاستدلال عبر الإنترنت — مع تصدر التخصيص والبحث وMarketplace لهذه الموجة. وبينما نوصي بالاستدلال الدفعي كنقطة انطلاق لعمليات التعلم الآلي الناضجة، قمنا بتطوير سجل النماذج ومنصة الخدمة لدينا لدعم الاستدلال في الوقت الفعلي. بفضل سجل النماذج الخاص بنا، يمكن لمهندسي Roblox استخدام roblox-ml لتحميل النماذج وتنزيلها، والتي يتم تمييزها وتحديد إصداراتها تلقائيًا لتسهيل التتبع والتراجع واختبار A/B. على سبيل المثال، يتم تدريب نماذج التخصيص الخاصة بنا ونشرها يوميًا، وغالبًا ما نجري حوالي 20 اختبارًا من اختبارات A/B بالتوازي. بالنسبة لمنصة الخدمة الخاصة بنا، استخدمنا KServe مع Triton Inference Server كبيئة تشغيل أساسية لخدمة النماذج نظرًا لأدائها القوي، فضلاً عن دعمها لأطر عمل التعلم الآلي المتعددة التي تستخدم كل من وحدات معالجة الرسومات (GPU) ووحدات المعالجة المركزية (CPU).

سواء كانت تعمل على دفعات أو عبر الإنترنت، تخضع النماذج في Roblox لاختبارات مكثفة قبل إصدارها. ويشمل ذلك التجارب غير المتصلة بالإنترنت، واختبارات الظل، واختبارات A/B. بعد الإصدار، تتم مراقبة النماذج باستمرار للتأكد من أنها تعمل كما هو متوقع من الناحية التشغيلية (على سبيل المثال، زمن استجابة الاستدلال) ومن حيث الدقة. كجزء من التزامنا بالسلامة واللياقة، يقوم المشرفون البشريون أيضًا بتقييم أي خلافات يتم الإبلاغ عنها في الاستدلالات، مما يساعد على ضمان صحة القرارات الحاسمة ويساعد على تحسين مجموعة بيانات التدريب لنماذجنا.

المرحلة الثانية: التحضير لتوسيع نطاق الاستدلال 

في أوائل عام 2023، رأينا إمكانات هائلة للذكاء الاصطناعي التوليدي لتسريع عملية الإنشاء على Roblox. للاستفادة الكاملة من هذه الإمكانات، قضينا معظم عام 2023 في تحسين أداء وكفاءة البنية التحتية للتدريب والاستدلال في مجال التعلم الآلي. بفضل هذه التحسينات، تمكنا من خفض تكلفة الحوسبة لإنشاء تضمين CLIP بشكل كبير. أولاً، قمنا بتوسيع أنظمة التدريب الموزعة لدينا لتمكين التدريب على مجموعات البيانات الكبيرة وتشغيل النماذج التي تحتوي على مليارات المعلمات عبر عدة عقد عمل. 

عندما بدأنا في بناء سير عمل موزع، أدركنا أن إعداداتنا الحالية للاستدلال دون اتصال بالإنترنت لن تدعم معدل النمو الذي كنا نشهده على المدى الطويل. تم تصميم إعدادنا الأولي للاستدلال في الوقت الفعلي، حيث تكون بيانات الإدخال والإخراج متسلسلة. ورغم أنه كان يعمل جيدًا في جهودنا المبكرة، إلا أنه لم يدعم بسهولة التوازي في المهام أو المعالجة متعددة المراحل، كما أنه لم يكن فعالاً في استخدام الموارد بما يكفي لدعم النطاق الذي نحتاجه الآن. بالإضافة إلى ذلك، كان على المهندسين كتابة منطقهم الخاص لتقسيم البيانات ومعالجة الأخطاء، وهو ما أصبح يستغرق وقتًا متزايدًا مع توسع احتياجاتنا من الاستدلال. 

لمواجهة هذه التحديات، أضفنا دعمًا لـ Ray، وهو إطار عمل حوسبة مفتوح المصدر يسهل توسيع نطاق أحمال عمل الاستدلال الدفعي. من خلال بناء مسار مهام موزع قائم على Ray للاستدلال الدفعي، تمكنا من تحسين استخدام الموارد، وتمكين المعالجة متعددة المراحل، وتوفير توازي مهام قوي وتحمل أكبر للأعطال. بالإضافة إلى ذلك، تتيح مكتبة Ray Data للمهندسين تعريف مسار مع تنفيذ متدفق في بضع أسطر فقط، مما يساعد على تحسين سرعة وكفاءة المطورين. لقد شهدنا حتى الآن مكاسب هائلة في الكفاءة باستخدام Ray للاستدلال الدفعي.

مع استمرار نمو احتياجاتنا من الاستدلال، قمنا بنقل جميع عمليات الاستدلال التي تتم على وحدة المعالجة المركزية (CPU) إلى مراكز البيانات الخاصة بنا، مما منحنا تحكمًا أكثر مباشرة في إعدادات زمن الوصول والخصوصية. نقوم بمعالجة ما يقرب من مليار طلب تخصيص يوميًا لـ 79.5 مليون مستخدم نشط يوميًا (اعتبارًا من 30 يونيو 2024). وقد ساعدنا نقل هذا الحمل إلى مراكز البيانات الخاصة بنا في الحفاظ على كفاءتنا دون المساس بتجربة المستخدم. لتوفير تكاليف الاستدلال، تقوم العديد من الأنظمة بتخزين الطلبات مؤقتًا — وكان من شأن ذلك أن يؤدي إلى توصيات قديمة نظرًا لأن العديد من المستخدمين يزورون الصفحة الرئيسية لـ Roblox عدة مرات في اليوم. وقد أدى ذلك أيضًا إلى تحسين كفاءتنا، مما مكننا من تحسين مكان تشغيل الاستدلال وتوزيع أحمال العمل لتقليل موارد الحوسبة المطلوبة.

مع استمرارنا في التوسع، أدركنا الحاجة إلى حل مخزن ميزات مخصص يمكنه دعم الإنتاجية العالية والكمون المنخفض والكفاءة من حيث التكلفة، مع تمكين التكرار السريع لمختلف الخدمات. لم تلب الحلول الحالية من الجهات الخارجية هذه المتطلبات، لذلك قمنا بتطوير مخزن ميزات مخصص خاص بنا، مبني على مشروع Feast مفتوح المصدر. قدم مخزن الميزات لدينا لغة مخصصة خاصة بالمجال لتعريف التحويلات لكل من ميزات الدُفعات والبث. تم اعتماد Flink كمحرك معالجة البث لتمكين الميزات في الوقت الفعلي، والتي كانت حاسمة للنماذج التي تحتاج إلى دمج أحدث المعلومات الممكنة. على الطرف الآخر من الطيف، كانت هناك ميزات تحتاج إلى اشتقاقها من معالجة عدد هائل من الأصول ثلاثية الأبعاد في دفعات عن طريق إعادة تشغيل محرك ألعاب Roblox في بيئة موزعة. يستوعب مخزن الميزات لدينا الآن ما يقرب من 30 مليار سجل ويقدم ما يقرب من 70 مليار سجل يوميًا بزمن انتقال P99 يبلغ 50 مللي ثانية — كما أنه يدعم أكثر من 100 خدمة ميزات.

كما نما استخدام التضمينات في النماذج بسرعة، مدفوعًا بالطلب المتزايد على الفهم الدلالي، سواء من خلال معالجة اللغة الطبيعية (NLP) أو الرؤية الحاسوبية أو أنظمة التوصية. وقد حفزنا ذلك على إنشاء قاعدة بيانات متجهة لتخزين واسترجاع المتجهات بكفاءة كنقاط عالية الأبعاد. وقد مكنت قاعدة البيانات المتجهة من إجراء عمليات بحث سريعة عن أقرب جار لتعزيز قدرات مثل البحث متعدد الوسائط واكتشاف انتهاكات المحتوى.

مع بدء المزيد من الفرق في استخدام نماذج التعلم الآلي، أردنا تحقيق كفاءة الحجم ومساعدة المهندسين على النجاح بسرعة أكبر، لذلك أنشأنا فريق الحقيقة الميدانية الخاص بنا. يساعد هذا الفريق المهندسين على تصميم خط إنتاج مجموعات البيانات الخاصة بهم، وتدريب البيانات والتحقق من صحتها باستخدام مقيمين بشريين، وتقديم بيانات عالية الجودة. وقد ساعدنا ذلك على توحيد عملية إنشاء خط بيانات والتحقق من صحة مجموعات البيانات، بالإضافة إلى التنسيق الذي يتم من خلاله تقديم البيانات وتتبعها ومراقبتها.

المرحلة الثالثة: تفعيل الاستدلال الضخم

مع إطلاق Roblox Assistant، شهدنا زيادة في عدد الرموز التي تتم معالجتها إلى 1.5 مليار رمز أسبوعيًا. كما أطلقنا ميزات جديدة، بما في ذلك الترجمة الفورية للدردشة باستخدام الذكاء الاصطناعي ونموذج الأمان الصوتي (المتاح الآن كمصدر مفتوح)، مما أدى إلى زيادة كبيرة في الطلب على سعة الاستدلال. شرعنا في تنفيذ مشروعين أساسيين لتعزيز تطوير تطبيقات الذكاء الاصطناعي: بوابة التعلم الآلي الخاصة بنا، ومنصة عمليات النماذج اللغوية الكبيرة (LLMOps) القائمة على مشروع vLLM. سيشكل هذان المشروعان معًا الأساس للجيل القادم من التعلم الآلي في Roblox.

لقد أنشأنا بوابة التعلم الآلي الموحدة لدينا لتركيز الوصول إلى جميع النماذج الكبيرة، سواء مفتوحة المصدر أو المطورة داخليًا، عبر مجموعة متنوعة من البيئات، بما في ذلك وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) في السحابة وفي المواقع. كان هدفنا هو إنشاء نظام فعال ومبسط لإدارة موارد الذكاء الاصطناعي في جميع أنحاء الشركة. في الخلفية، توفر البوابة واجهة برمجة تطبيقات (API) مشتركة، وخيارات تكوين سهلة الاستخدام، ومشاركة فعالة للموارد بين جميع النماذج التي قمنا بنشرها.

عززت البوابة مرونة خدمات الاستدلال لدينا من خلال توفير التحكم المركزي في السرعة حسب عدد الرموز لأحمال عمل الذكاء الاصطناعي التوليدي وموازنة الأحمال التي تراعي زمن الوصول بين المناطق. بالإضافة إلى ذلك، تعزز البوابة الأمان من خلال مركزية إدارة مفاتيح واجهة برمجة التطبيقات (API)، وتسمح بتتبع شامل للاستخدام والتنفيذ المحتمل للحقوق، وتتكامل مع أدوات المراقبة لتحسين قابلية المراقبة. ستساعدنا كل هذه الميزات على تحسين استخدام النماذج الكبيرة، وخفض التكاليف، وتوفير رؤى قيّمة للمهندسين في جميع أنحاء Roblox. 

بالإضافة إلى ذلك، اعتمدنا vLLM كمحرك الاستدلال الأساسي لدينا لنماذج اللغة الكبيرة (LLMs)، مستفيدين من قدرات vLLM عالية الأداء لتشغيل تطبيقات الذكاء الاصطناعي عبر Roblox. منذ الانتقال إلى vLLM، شهدنا تحسناً بنحو الضعف في كل من زمن الوصول والإنتاجية، ونقدم حالياً ما يقرب من 4 مليارات رمز في الأسبوع.

يتوافق اختيارنا لـ vLLM مع التزامنا بالاستفادة من التقنيات مفتوحة المصدر والمتطورة التي يمكن توسيع نطاقها بكفاءة لتلبية متطلبات قاعدة مستخدمينا الضخمة ومجموعة متنوعة من التجارب. تساهم Roblox بشكل فعال في مشروع vLLM مفتوح المصدر، وتقود تطوير الدعم متعدد الوسائط لـ vLLM، مما يمكّن المحرك من التعامل ليس فقط مع النصوص، بل أيضًا مع الصور وربما أنواع أخرى من البيانات في المستقبل. كما قمنا بتنفيذ تقنيات فك التشفير التخميني لتحسين أداء الاستدلال بشكل أكبر، مما يتيح معالجة مهام اللغة بشكل أسرع وأكثر كفاءة. 

بفضل بوابة التعلم الآلي (ML gateway) و vLLM، يمكننا دعم مئات خطوط أنابيب التعلم الآلي المستخدمة عبر Roblox بكفاءة — ومواصلة توسيع نطاق الاستدلال مع استمرار نمو الطلب على الميزات المدعومة بالذكاء الاصطناعي. ونحن لم ننتهِ بعد من هذا العمل. لدينا خطط كبيرة لمستقبل الذكاء الاصطناعي في Roblox. نحن نعمل على أدوات جديدة مدعومة بالذكاء الاصطناعي لجعل عملية الإنشاء أكثر كفاءة لكل من المبدعين المبتدئين والخبراء. وكما هو الحال دائمًا، نحن نعمل على طرق لتحسين أداء وكفاءة بنيتنا التحتية لدعم أدوات الذكاء الاصطناعي التي نستخدمها نحن ومبدعونا يوميًا بشكل أفضل. 

التزامنا بالمصدر المفتوح

لقد وصلنا إلى هذا الحد بفضل العديد من مشاريع البرمجيات مفتوحة المصدر الناجحة. تم بناء جزء كبير من مجموعتنا التقنية باستخدام التكنولوجيا مفتوحة المصدر المذكورة أعلاه.

نحن ملتزمون بأن نكون شريكًا قويًا في مجتمع الذكاء الاصطناعي مفتوح المصدر وأن نساهم ببعض تقنياتنا مفتوحة المصدر. أعلنا مؤخرًا عن أول نموذج مفتوح المصدر لدينا — مصنف أمان الصوت — ونعمل حاليًا على بوابة التعلم الآلي الخاصة بنا، على أمل جعلها مفتوحة المصدر أيضًا. نعتقد أن مستقبل الذكاء الاصطناعي يجب أن يتضمن الانفتاح والشفافية، ونحن متحمسون لكوننا عضوًا نشطًا في هذا المجتمع.