स्टारकोडर 2 और द स्टैक v2: अगली पीढ़ी

Author

अर्जुन गुहा (Roblox + नॉर्थईस्टर्न यूनिवर्सिटी), एंटोन लोझकोव (HuggingFace), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), फेडेरिको कैसानो (नॉर्थईस्टर्न यूनिवर्सिटी), जोएल लैमी-पोइरियर (ServiceNow), नूआमेन ताज़ी (HuggingFace), आओ टैंग (Nvidia), डिमित्रो पिक्टार (Nvidia), जियावेई लियू (University of Illinois Urbana-Champaign), युक्सियांग वेई (University of Illinois Urbana-Champaign), तियानयांग लियू (UC San Diego), मैक्स तियान (ServiceNow), डेनिस कोसेटकोव (सर्विसनाउ), आर्थर ज़कर (हगिंगफेस), यंग बेल्काडा (हगिंगफेस), ज़िज़ान वांग (स्वतंत्र), कियान लियू (सी एआई लैब), दिमित्री अबुलखानोव (स्वतंत्र), इंद्रनील पॉल (टेक्निकल यूनिवर्सिटी ऑफ डार्मस्टाड्ट), झुआंग ली (मोनश विश्वविद्यालय), वेन-डिंग ली (कॉर्नेल विश्वविद्यालय), मेगन रिस्डल (कागल), जिया ली (स्वतंत्र), जियान झू (ब्रिटिश कोलंबिया विश्वविद्यालय), टेरी युए झूओ (मोनश विश्वविद्यालय + सीएसआईआरओ का डेटा61), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इज़राइल इंस्टीट्यूट ऑफ टेक्नोलॉजी), नी ओसाए ओसाए दाडे (मज़ुमा), वेनहाओ यू (नॉट्रे डेम विश्वविद्यालय), लुकास क्रॉस (स्वतंत्र), नामन जैन (यूसी बर्कले), यिक्सुआन सु (कोहेयर), झुआनली हे (यूनिवर्सिटी कॉलेज लंदन), मन्नन देय (सेल्सफोर्स), एडोआर्डो अबाती (स्वतंत्र), येकुन चाई (बाइडू), निक्लास मुएननिघॉफ (कॉन्टेक्स्टुअल एआई), शियांगरू टैंग (येल विश्वविद्यालय), मुहताशाम ओब्लोकुलोव (टेक्निकल यूनिवर्सिटी ऑफ म्यूनिख), क्रिस्टोफर अकीकी (लेइपज़िग विश्वविद्यालय + ScaDS.AI), मार्क मारोने (जॉन हॉपकिन्स विश्वविद्यालय), चेंघाओ मौ (स्वतंत्र), मयंक मिश्रा (आईबीएम रिसर्च), एलेक्स गु (एमआईटी), बिनयुआन हुआई (स्वतंत्र), त्रि दाओ (प्रिंसटन विश्वविद्यालय), आर्मेल ज़ेबाज़ (हगिंगफेस), ओलिवियर डेहेन (हगिंगफेस), निकोलस पेट्री (हगिंगफेस), कैनवेन शू (यूसी सैन डिएगो), जूलियन मैकॉले (यूसी सैन डिएगो), हान हू (मोनाश विश्वविद्यालय), टॉर्स्टन शोलक (सर्विसनाउ), सेबेस्टियन पैकेट (सर्विसनाउ), जेनिफर रॉबिन्सन (सर्विसनाउ), कैरोलिन जेन एंडरसन (वेलेस्ली कॉलेज), निकोलस चापाडोस (सर्विसनाउ), मोस्टोफा पतवारी (एनवीडिया), निमा ताजबख्श (एनवीडिया), यासिन जर्निते (हगिंगफेस), कार्लोस मुनोज फेरैंडिस (हगिंगफेस), लिंगमिंग झांग (इलिनॉय विश्वविद्यालय अर्बाना-शैम्पेन), शॉन ह्यूजेस (सर्विसनाउ), थॉमस वुल्फ (हगिंगफेस), लियंड्रो वॉन वेरा (हगिंगफेस), हारम डे व्रीस (ServiceNow)

Venue

Abstract

BigCode परियोजना, जो कोड के लिए बड़े भाषा मॉडल (Code LLMs) के जिम्मेदार विकास पर केंद्रित एक खुला-वैज्ञानिक सहयोग है, StarCoder2 पेश करती है। Software Heritage (SWH) के साथ साझेदारी में, हम उनके स्रोत कोड आर्काइव की डिजिटल कॉमन्स के ऊपर The Stack v2 का निर्माण करते हैं। 619 प्रोग्रामिंग भाषाओं तक फैली SWH रिपॉजिटरी के साथ, हम GitHub पुल रिक्वेस्ट, Kaggle नोटबुक और कोड दस्तावेज़ीकरण जैसे अन्य उच्च-गुणवत्ता वाले डेटा स्रोतों को सावधानीपूर्वक चुनते हैं। इसके परिणामस्वरूप एक ऐसा प्रशिक्षण सेट तैयार होता है जो पहले StarCoder डेटासेट से 4 गुना बड़ा है। हम 3.3 से 4.3 ट्रिलियन टोकन पर 3B, 7B, और 15B पैरामीटर वाले StarCoder2 मॉडल को प्रशिक्षित करते हैं और उन्हें कोड एलएलएम बेंचमार्क के एक व्यापक सेट पर पूरी तरह से मूल्यांकन करते हैं। हम पाते हैं कि हमारा छोटा मॉडल, StarCoder2-3B, अधिकांश बेंचमार्क पर समान आकार के अन्य कोड एलएलएम (Code LLMs) से बेहतर प्रदर्शन करता है, और StarCoderBase-15B से भी बेहतर प्रदर्शन करता है। हमारा बड़ा मॉडल, StarCoder2-15B, तुलनीय आकार के अन्य मॉडलों से काफी बेहतर प्रदर्शन करता है। इसके अतिरिक्त, यह CodeLlama-34B से मेल खाता है या उससे बेहतर प्रदर्शन करता है, जो इसके आकार से दोगुने से भी अधिक बड़ा मॉडल है। यद्यपि DeepSeekCoder-33B उच्च-संसाधन भाषाओं के लिए कोड पूर्णता में सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल है, हम पाते हैं कि StarCoder2-15B गणित और कोड तर्कसंगतता बेंचमार्क के साथ-साथ कई कम-संसाधन भाषाओं में भी इससे बेहतर प्रदर्शन करता है। हम मॉडल वेट्स को एक ओपनरेल (OpenRAIL) लाइसेंस के तहत उपलब्ध कराते हैं और सोर्स कोड डेटा के सॉफ़्टवेयर हेरिटेज पर्सिस्टेंट आईडेंटिफ़ाइर्स (SWHIDs) जारी करके प्रशिक्षण डेटा के संबंध में पूर्ण पारदर्शिता सुनिश्चित करते हैं।

भविष्य को आकार देने में हमारे साथ जुड़ें

सभी नौकरियाँ देखें

नवीनतम

अधिक परिणाम

स्टारकोडर 2 और द स्टैक v2: अगली पीढ़ी

Author

Venue

Abstract

भविष्य को आकार देने में हमारे साथ जुड़ें

स्टारकोडर 2 और द स्टैक v2: अगली पीढ़ी

Author

Venue

Abstract

Related Publications

क्यूबपार्ट: एक खुली शब्दावली वाला, भाग-नियंत्रणीय 3D जनरेटर

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

कैटलॉग-नेटिव एलएलएम: सिफारिश के लिए कम उलझन के साथ आइटम-आईडी बोली बोलना

भविष्य को आकार देने में हमारे साथ जुड़ें