StarCoder 2 و The Stack v2: الجيل القادم

Share

Author

أرجون غوها (Roblox + جامعة نورث إيسترن)، أنطون لوزكوف (HuggingFace)، ريموند لي (ServiceNow)، لوبنا بن علال (HuggingFace)، فيديريكو كاسانو (جامعة نورث إيسترن)، جويل لامي-بوارير (ServiceNow)، نوامان تازي (HuggingFace)، آو تانغ (Nvidia)، ديميترو بيختار (Nvidia)، جياوي ليو (جامعة إلينوي في أوربانا-شامبين)، يوشيانغ وي (جامعة إلينوي في أوربانا-شامبين)، تيانيانغ ليو (جامعة كاليفورنيا في سان دييغو)، ماكس تيان (ServiceNow)، دينيس كوسيتكوف (ServiceNow)، آرثر زوكر (HuggingFace)، يونغ بلكادا (HuggingFace)، زيجان وانغ (مستقل)، تشيان ليو (مختبر Sea AI)، ديمتري أبولخانوف (مستقل)، إندرانيل بول (الجامعة التقنية في دارمشتات)، تشوانغ لي (جامعة موناش)، وين-دينغ لي (جامعة كورنيل)، ميغان ريسدال (Kaggle)، جيا لي (مستقل)، جيان زو (جامعة كولومبيا البريطانية)، تيري يو زو (جامعة موناش + Data61 التابعة لـ CSIRO)، إيفجيني زيلتونوزسكي (تخنيون – معهد إسرائيل للتكنولوجيا)، ني أوساي أوساي دادي (مازوما)، وينهاو يو (جامعة نوتردام)، لوكاس كراوس (مستقل)، نامان جاين (جامعة كاليفورنيا في بيركلي)، ييشوان سو (Cohere)، شوانلي هي (كلية لندن الجامعية)، مانان دي (Salesforce)، إدواردو أباتي (مستقل)، ييكون تشاي (بايدو)، نيكلاس مونيجوف (Contextual AI)، شيانغرو تانغ (جامعة ييل)، موهتشام أوبولوكولوف (الجامعة التقنية في ميونيخ)، كريستوفر أكيكي (جامعة لايبزيغ + ScaDS.AI)، مارك مارون (جامعة جونز هوبكنز)، تشنغهاو مو (مستقل)، مايانك ميشرا (IBM Research)، أليكس غو (MIT)، بينيوان هوي (مستقل)، تري داو (جامعة برينستون)، أرميل زيباز (HuggingFace)، أوليفييه ديهين (HuggingFace)، نيكولاس باتري (HuggingFace)، كانوين شو (جامعة كاليفورنيا في سان دييغو)، جوليان ماكولي (جامعة كاليفورنيا في سان دييغو)، هان هو (جامعة موناش)، تورستن شولاك (ServiceNow)، سيباستيان باكيه (ServiceNow)، جينيفر روبنسون (ServiceNow)، كارولين جين أندرسون (كلية ويلسلي)، نيكولاس شابادوس (ServiceNow)، مصطفى باتواري (إنفيديا)، نيما تاجباخش (إنفيديا)، ياسين جيرنيت (هوجينج فايس)، كارلوس مونيوز فيرانديس (هوجينج فايس)، لينغمينغ زانغ (جامعة إلينوي في أوربانا-شامبين)، شون هيوز (سيرفيس ناو)، توماس وولف (هوجينج فايس)، لياندرو فون فيرا (هوجينج فايس)، هارم دي فريس (ServiceNow)

Venue

Abstract

يقدم مشروع BigCode، وهو تعاون علمي مفتوح يركز على التطوير المسؤول لنماذج اللغة الكبيرة للكود (Code LLMs)، StarCoder2. بالشراكة مع Software Heritage (SWH)، نقوم ببناء The Stack v2 على أساس الموارد الرقمية المشتركة لأرشيف الكود المصدري الخاص بهم. إلى جانب مستودعات SWH التي تغطي 619 لغة برمجة، نختار بعناية مصادر بيانات أخرى عالية الجودة، مثل طلبات السحب من GitHub، ودفاتر Kaggle، ووثائق الكود. وينتج عن ذلك مجموعة تدريب أكبر بأربع مرات من مجموعة بيانات StarCoder الأولى. نقوم بتدريب نماذج StarCoder2 ذات المعلمات 3B و7B و15B على 3.3 إلى 4.3 تريليون رمز، ونقوم بتقييمها بدقة على مجموعة شاملة من معايير Code LLM. وجدنا أن نموذجنا الصغير، StarCoder2-3B، يتفوق على نماذج Code LLM الأخرى ذات الحجم المماثل في معظم المعايير، كما يتفوق على StarCoderBase-15B. أما نموذجنا الكبير، StarCoder2-15B، فيتفوق بشكل ملحوظ على النماذج الأخرى ذات الحجم المماثل. بالإضافة إلى ذلك، فإنه يضاهي أو يتفوق على CodeLlama-34B، وهو نموذج يزيد حجمه عن ضعف حجمه. على الرغم من أن DeepSeekCoder-33B هو النموذج الأفضل أداءً في إكمال الكود للغات ذات الموارد العالية، فقد وجدنا أن StarCoder2-15B يتفوق عليه في معايير أداء الرياضيات والاستدلال البرمجي، بالإضافة إلى العديد من اللغات ذات الموارد المنخفضة. نحن نوفر أوزان النموذج بموجب ترخيص OpenRAIL ونضمن الشفافية الكاملة فيما يتعلق ببيانات التدريب من خلال إصدار معرفات SoftWare Heritage الدائمة (SWHIDs) لبيانات الكود المصدري.

انضم إلينا في صياغة المستقبل

عرض جميع الوظائف

الأحدث

المزيد من النتائج

StarCoder 2 و The Stack v2: الجيل القادم

Author

Venue

Abstract

انضم إلينا في صياغة المستقبل

StarCoder 2 و The Stack v2: الجيل القادم

Author

Venue

Abstract

Related Publications

CubePart: مولد ثلاثي الأبعاد مفتوح المفردات وقابل للتحكم الجزئي

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

LLM الأصلي للفهرس: التحدث بلغة معرف العنصر (Item-ID) بلهجة أقل تشابكًا من أجل التوصية

انضم إلينا في صياغة المستقبل