Author
أرجون غوها (Roblox + جامعة نورث إيسترن)، ريموند لي (ServiceNow)، لوبنا بن علال (HuggingFace)، يانغتيان زي (جامعة نورث إيسترن)، نيكلاس مونيجوف (HuggingFace)، دينيس كوسيتكوف (ServiceNow)، تشنغهاو مو (مستقل)، مارك مارون (جامعة جونز هوبكنز)، كريستوفر أكيكي (جامعة لايبزيغ + ScaDS.AI)، جيا لي (مستقل)، جيني تشيم (جامعة كوين ماري في لندن)، تشيان ليو (مختبر Sea AI)، إيفجيني زيلتونوزسكي (تخنيون – معهد إسرائيل للتكنولوجيا)، تيري يو زو (جامعة موناش + Data61 التابعة لـ CSIRO)، توماس وانغ (HuggingFace)، أوليفييه ديهين (HuggingFace)، ميشيغ دافادورج (HuggingFace)، جويل لامي-بوارير (ServiceNow)، جواو مونتيرو (ServiceNow)، أوليه شليازكو (ServiceNow)، نيكولاس غونتييه (ServiceNow)، نيكولاس ميد (Mila + جامعة ماكجيل)، أرميل زيباز (HuggingFace)، مينغ-هو يي (جامعة نورث إيسترن)، لوغيش كومار أوماباثي (مختبر أبحاث Saama AI)، جيان زو (جامعة كولومبيا البريطانية)، بنجامين ليبكين (MIT)، موهتشام أوبلوكولوف (الجامعة التقنية في ميونيخ)، تشيرو وانغ (جامعة كارنيجي ميلون)، رودرا مورثي (IBM Research)، جايسون ستيلرمان (جامعة فيرمونت)، سيفا سانكالب باتيل (IBM Research)، ديمتري أبولخانوف (مستقل)، ماركو زوكا (UnfoldML)، مانان دي (SAP)، زيهان زانغ (جامعة نوتردام)، نور فهمي (جامعة كولومبيا)، أورفاشي باتشاريا (Discover Dollar Pvt Ltd)، وينهاو يو (جامعة نوتردام)، سوايام سينغ (جامعة الله أباد)، ساشا لوسيوني (HuggingFace)، باولو فيليغاس (Telefonica I+D)، مكسيم كوناكوف (Toloka)، فيدور زدانوف (Toloka)، مانويل روميرو (مستقل)، توني لي (جامعة ستانفورد)، ناداف تيمور (معهد وايزمان للعلوم)، جينيفر دينغ (معهد آلان تورينج)، كلير شليزنجر (جامعة نورث إيسترن)، هايلي شولكوف (Eleuther AI)، جان إيبرت (مركز أبحاث يوليش)، تري داو (جامعة ستانفورد)، مايانك ميشرا (أبحاث IBM)، أليكس غو (MIT)، جينيفر روبنسون (ServiceNow)، كارولين جين أندرسون (كلية ويلسلي)، بريندان دولان-غافيت (جامعة نيويورك)، دانش كونتركتور (مستقل)، سيفا ريدي (ServiceNow + Mila)، دانيال فريد (جامعة كارنيجي ميلون)، دزميتري باهدانو (ServiceNow)، ياسين جيرنيت (HuggingFace)، كارلوس مونيوز فيرانديس (HuggingFace)، شون هيوز (ServiceNow)، توماس وولف (HuggingFace)، لياندرو فون فيرا (HuggingFace)، هارم دي فريس (ServiceNow)
Venue
مجلة أبحاث التعلم الآلي (TMLR) 2023
Abstract
تقدم مجتمع BigCode، وهو تعاون علمي مفتوح يعمل على التطوير المسؤول لنماذج اللغة الكبيرة للكود (Code LLMs)، StarCoder و StarCoderBase: نماذج ذات 15.5 مليار معلمة بطول سياق يبلغ 8 آلاف، وقدرات ملء الفراغات، واستدلال سريع للدفعات الكبيرة بفضل الانتباه متعدد الاستعلامات. تم تدريب StarCoderBase على تريليون رمز مصدرها The Stack، وهي مجموعة كبيرة من مستودعات GitHub المرخصة بشكل متساهل مع أدوات فحص وعملية إلغاء الاشتراك. قمنا بضبط StarCoderBase على 35 مليار رمز Python، مما أدى إلى إنشاء StarCoder. نقوم بإجراء التقييم الأكثر شمولاً لنماذج Code LLM حتى الآن ونظهر أن StarCoderBase يتفوق على كل نموذج Code LLM مفتوح يدعم لغات برمجة متعددة ويضاهي أو يتفوق على نموذج OpenAI code-cushman-001. علاوة على ذلك، يتفوق StarCoder على كل نموذج تم ضبطه بدقة على Python، ويمكن حثه على تحقيق 40\% pass@1 على HumanEval، مع الاحتفاظ بأدائه في لغات البرمجة الأخرى. نتخذ عدة خطوات مهمة نحو إصدار نموذج آمن ومفتوح الوصول، بما في ذلك مسار محسّن لحجب المعلومات الشخصية (PII) وأداة جديدة لتتبع الإسناد، ونجعل نماذج StarCoder متاحة للجمهور بموجب نسخة أكثر قابلية للتطبيق تجاريًا من ترخيص Open Responsible AI Model.