इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

स्टारकोडर 2 और द स्टैक v2: अगली पीढ़ी

View Publication

Author

अर्जुन गुहा (Roblox + नॉर्थईस्टर्न यूनिवर्सिटी), एंटोन लोझकोव (HuggingFace), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), फेडेरिको कैसानो (नॉर्थईस्टर्न यूनिवर्सिटी), जोएल लैमी-पोइरियर (ServiceNow), नूआमेन ताज़ी (HuggingFace), आओ टैंग (Nvidia), डिमित्रो पिक्टार (Nvidia), जियावेई लियू (University of Illinois Urbana-Champaign), युक्सियांग वेई (University of Illinois Urbana-Champaign), तियानयांग लियू (UC San Diego), मैक्स तियान (ServiceNow), डेनिस कोसेटकोव (सर्विसनाउ), आर्थर ज़कर (हगिंगफेस), यंग बेल्काडा (हगिंगफेस), ज़िज़ान वांग (स्वतंत्र), कियान लियू (सी एआई लैब), दिमित्री अबुलखानोव (स्वतंत्र), इंद्रनील पॉल (टेक्निकल यूनिवर्सिटी ऑफ डार्मस्टाड्ट), झुआंग ली (मोनश विश्वविद्यालय), वेन-डिंग ली (कॉर्नेल विश्वविद्यालय), मेगन रिस्डल (कागल), जिया ली (स्वतंत्र), जियान झू (ब्रिटिश कोलंबिया विश्वविद्यालय), टेरी युए झूओ (मोनश विश्वविद्यालय + सीएसआईआरओ का डेटा61), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इज़राइल इंस्टीट्यूट ऑफ टेक्नोलॉजी), नी ओसाए ओसाए दाडे (मज़ुमा), वेनहाओ यू (नॉट्रे डेम विश्वविद्यालय), लुकास क्रॉस (स्वतंत्र), नामन जैन (यूसी बर्कले), यिक्सुआन सु (कोहेयर), झुआनली हे (यूनिवर्सिटी कॉलेज लंदन), मन्नन देय (सेल्सफोर्स), एडोआर्डो अबाती (स्वतंत्र), येकुन चाई (बाइडू), निक्लास मुएननिघॉफ (कॉन्टेक्स्टुअल एआई), शियांगरू टैंग (येल विश्वविद्यालय), मुहताशाम ओब्लोकुलोव (टेक्निकल यूनिवर्सिटी ऑफ म्यूनिख), क्रिस्टोफर अकीकी (लेइपज़िग विश्वविद्यालय + ScaDS.AI), मार्क मारोने (जॉन हॉपकिन्स विश्वविद्यालय), चेंघाओ मौ (स्वतंत्र), मयंक मिश्रा (आईबीएम रिसर्च), एलेक्स गु (एमआईटी), बिनयुआन हुआई (स्वतंत्र), त्रि दाओ (प्रिंसटन विश्वविद्यालय), आर्मेल ज़ेबाज़ (हगिंगफेस), ओलिवियर डेहेन (हगिंगफेस), निकोलस पेट्री (हगिंगफेस), कैनवेन शू (यूसी सैन डिएगो), जूलियन मैकॉले (यूसी सैन डिएगो), हान हू (मोनाश विश्वविद्यालय), टॉर्स्टन शोलक (सर्विसनाउ), सेबेस्टियन पैकेट (सर्विसनाउ), जेनिफर रॉबिन्सन (सर्विसनाउ), कैरोलिन जेन एंडरसन (वेलेस्ली कॉलेज), निकोलस चापाडोस (सर्विसनाउ), मोस्टोफा पतवारी (एनवीडिया), निमा ताजबख्श (एनवीडिया), यासिन जर्निते (हगिंगफेस), कार्लोस मुनोज फेरैंडिस (हगिंगफेस), लिंगमिंग झांग (इलिनॉय विश्वविद्यालय अर्बाना-शैम्पेन), शॉन ह्यूजेस (सर्विसनाउ), थॉमस वुल्फ (हगिंगफेस), लियंड्रो वॉन वेरा (हगिंगफेस), हारम डे व्रीस (ServiceNow)

Venue

Abstract

BigCode परियोजना, जो कोड के लिए बड़े भाषा मॉडल (Code LLMs) के जिम्मेदार विकास पर केंद्रित एक खुला-वैज्ञानिक सहयोग है, StarCoder2 पेश करती है। Software Heritage (SWH) के साथ साझेदारी में, हम उनके स्रोत कोड आर्काइव की डिजिटल कॉमन्स के ऊपर The Stack v2 का निर्माण करते हैं। 619 प्रोग्रामिंग भाषाओं तक फैली SWH रिपॉजिटरी के साथ, हम GitHub पुल रिक्वेस्ट, Kaggle नोटबुक और कोड दस्तावेज़ीकरण जैसे अन्य उच्च-गुणवत्ता वाले डेटा स्रोतों को सावधानीपूर्वक चुनते हैं। इसके परिणामस्वरूप एक ऐसा प्रशिक्षण सेट तैयार होता है जो पहले StarCoder डेटासेट से 4 गुना बड़ा है। हम 3.3 से 4.3 ट्रिलियन टोकन पर 3B, 7B, और 15B पैरामीटर वाले StarCoder2 मॉडल को प्रशिक्षित करते हैं और उन्हें कोड एलएलएम बेंचमार्क के एक व्यापक सेट पर पूरी तरह से मूल्यांकन करते हैं। हम पाते हैं कि हमारा छोटा मॉडल, StarCoder2-3B, अधिकांश बेंचमार्क पर समान आकार के अन्य कोड एलएलएम (Code LLMs) से बेहतर प्रदर्शन करता है, और StarCoderBase-15B से भी बेहतर प्रदर्शन करता है। हमारा बड़ा मॉडल, StarCoder2-15B, तुलनीय आकार के अन्य मॉडलों से काफी बेहतर प्रदर्शन करता है। इसके अतिरिक्त, यह CodeLlama-34B से मेल खाता है या उससे बेहतर प्रदर्शन करता है, जो इसके आकार से दोगुने से भी अधिक बड़ा मॉडल है। यद्यपि DeepSeekCoder-33B उच्च-संसाधन भाषाओं के लिए कोड पूर्णता में सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल है, हम पाते हैं कि StarCoder2-15B गणित और कोड तर्कसंगतता बेंचमार्क के साथ-साथ कई कम-संसाधन भाषाओं में भी इससे बेहतर प्रदर्शन करता है। हम मॉडल वेट्स को एक ओपनरेल (OpenRAIL) लाइसेंस के तहत उपलब्ध कराते हैं और सोर्स कोड डेटा के सॉफ़्टवेयर हेरिटेज पर्सिस्टेंट आईडेंटिफ़ाइर्स (SWHIDs) जारी करके प्रशिक्षण डेटा के संबंध में पूर्ण पारदर्शिता सुनिश्चित करते हैं।