Author
अर्जुन गुहा (Roblox + नॉर्थईस्टर्न यूनिवर्सिटी), एंटोन लोझकोव (HuggingFace), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), फेडेरिको कैसानो (नॉर्थईस्टर्न यूनिवर्सिटी), जोएल लैमी-पोइरियर (ServiceNow), नूआमेन ताज़ी (HuggingFace), आओ टैंग (Nvidia), डिमित्रो पिक्टार (Nvidia), जियावेई लियू (University of Illinois Urbana-Champaign), युक्सियांग वेई (University of Illinois Urbana-Champaign), तियानयांग लियू (UC San Diego), मैक्स तियान (ServiceNow), डेनिस कोसेटकोव (सर्विसनाउ), आर्थर ज़कर (हगिंगफेस), यंग बेल्काडा (हगिंगफेस), ज़िज़ान वांग (स्वतंत्र), कियान लियू (सी एआई लैब), दिमित्री अबुलखानोव (स्वतंत्र), इंद्रनील पॉल (टेक्निकल यूनिवर्सिटी ऑफ डार्मस्टाड्ट), झुआंग ली (मोनश विश्वविद्यालय), वेन-डिंग ली (कॉर्नेल विश्वविद्यालय), मेगन रिस्डल (कागल), जिया ली (स्वतंत्र), जियान झू (ब्रिटिश कोलंबिया विश्वविद्यालय), टेरी युए झूओ (मोनश विश्वविद्यालय + सीएसआईआरओ का डेटा61), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इज़राइल इंस्टीट्यूट ऑफ टेक्नोलॉजी), नी ओसाए ओसाए दाडे (मज़ुमा), वेनहाओ यू (नॉट्रे डेम विश्वविद्यालय), लुकास क्रॉस (स्वतंत्र), नामन जैन (यूसी बर्कले), यिक्सुआन सु (कोहेयर), झुआनली हे (यूनिवर्सिटी कॉलेज लंदन), मन्नन देय (सेल्सफोर्स), एडोआर्डो अबाती (स्वतंत्र), येकुन चाई (बाइडू), निक्लास मुएननिघॉफ (कॉन्टेक्स्टुअल एआई), शियांगरू टैंग (येल विश्वविद्यालय), मुहताशाम ओब्लोकुलोव (टेक्निकल यूनिवर्सिटी ऑफ म्यूनिख), क्रिस्टोफर अकीकी (लेइपज़िग विश्वविद्यालय + ScaDS.AI), मार्क मारोने (जॉन हॉपकिन्स विश्वविद्यालय), चेंघाओ मौ (स्वतंत्र), मयंक मिश्रा (आईबीएम रिसर्च), एलेक्स गु (एमआईटी), बिनयुआन हुआई (स्वतंत्र), त्रि दाओ (प्रिंसटन विश्वविद्यालय), आर्मेल ज़ेबाज़ (हगिंगफेस), ओलिवियर डेहेन (हगिंगफेस), निकोलस पेट्री (हगिंगफेस), कैनवेन शू (यूसी सैन डिएगो), जूलियन मैकॉले (यूसी सैन डिएगो), हान हू (मोनाश विश्वविद्यालय), टॉर्स्टन शोलक (सर्विसनाउ), सेबेस्टियन पैकेट (सर्विसनाउ), जेनिफर रॉबिन्सन (सर्विसनाउ), कैरोलिन जेन एंडरसन (वेलेस्ली कॉलेज), निकोलस चापाडोस (सर्विसनाउ), मोस्टोफा पतवारी (एनवीडिया), निमा ताजबख्श (एनवीडिया), यासिन जर्निते (हगिंगफेस), कार्लोस मुनोज फेरैंडिस (हगिंगफेस), लिंगमिंग झांग (इलिनॉय विश्वविद्यालय अर्बाना-शैम्पेन), शॉन ह्यूजेस (सर्विसनाउ), थॉमस वुल्फ (हगिंगफेस), लियंड्रो वॉन वेरा (हगिंगफेस), हारम डे व्रीस (ServiceNow)
Abstract
BigCode परियोजना, जो कोड के लिए बड़े भाषा मॉडल (Code LLMs) के जिम्मेदार विकास पर केंद्रित एक खुला-वैज्ञानिक सहयोग है, StarCoder2 पेश करती है। Software Heritage (SWH) के साथ साझेदारी में, हम उनके स्रोत कोड आर्काइव की डिजिटल कॉमन्स के ऊपर The Stack v2 का निर्माण करते हैं। 619 प्रोग्रामिंग भाषाओं तक फैली SWH रिपॉजिटरी के साथ, हम GitHub पुल रिक्वेस्ट, Kaggle नोटबुक और कोड दस्तावेज़ीकरण जैसे अन्य उच्च-गुणवत्ता वाले डेटा स्रोतों को सावधानीपूर्वक चुनते हैं। इसके परिणामस्वरूप एक ऐसा प्रशिक्षण सेट तैयार होता है जो पहले StarCoder डेटासेट से 4 गुना बड़ा है। हम 3.3 से 4.3 ट्रिलियन टोकन पर 3B, 7B, और 15B पैरामीटर वाले StarCoder2 मॉडल को प्रशिक्षित करते हैं और उन्हें कोड एलएलएम बेंचमार्क के एक व्यापक सेट पर पूरी तरह से मूल्यांकन करते हैं। हम पाते हैं कि हमारा छोटा मॉडल, StarCoder2-3B, अधिकांश बेंचमार्क पर समान आकार के अन्य कोड एलएलएम (Code LLMs) से बेहतर प्रदर्शन करता है, और StarCoderBase-15B से भी बेहतर प्रदर्शन करता है। हमारा बड़ा मॉडल, StarCoder2-15B, तुलनीय आकार के अन्य मॉडलों से काफी बेहतर प्रदर्शन करता है। इसके अतिरिक्त, यह CodeLlama-34B से मेल खाता है या उससे बेहतर प्रदर्शन करता है, जो इसके आकार से दोगुने से भी अधिक बड़ा मॉडल है। यद्यपि DeepSeekCoder-33B उच्च-संसाधन भाषाओं के लिए कोड पूर्णता में सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल है, हम पाते हैं कि StarCoder2-15B गणित और कोड तर्कसंगतता बेंचमार्क के साथ-साथ कई कम-संसाधन भाषाओं में भी इससे बेहतर प्रदर्शन करता है। हम मॉडल वेट्स को एक ओपनरेल (OpenRAIL) लाइसेंस के तहत उपलब्ध कराते हैं और सोर्स कोड डेटा के सॉफ़्टवेयर हेरिटेज पर्सिस्टेंट आईडेंटिफ़ाइर्स (SWHIDs) जारी करके प्रशिक्षण डेटा के संबंध में पूर्ण पारदर्शिता सुनिश्चित करते हैं।