Author
अर्जुन गुहा (Roblox + Northeastern University), अँटन लोझ्कोव (HuggingFace), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), फेडेरिको कॅसानो (Northeastern University), जोएल लॅमी-पोइरियर (ServiceNow), नुआमाने ताझी (HuggingFace), आओ टँग (Nvidia), द्मित्रो पिक्टार (Nvidia), जियावेई लियू (University of Illinois Urbana-Champaign), युक्सियांग वेई (University of Illinois Urbana-Champaign), तियानयांग लियू (UC San Diego), मॅक्स तियान (ServiceNow), डेनिस कोचेत्कोव्ह (ServiceNow), आर्थर झुकर (HuggingFace), यंग बेल्काडा (HuggingFace), झिजान वांग (स्वतंत्र), कियान लियू (Sea AI Lab), दिमित्री अबुलखानोव्ह (स्वतंत्र), इंद्रानील पॉल (टेक्निकल युनिव्हर्सिटी ऑफ डार्मस्टाड्ट), झुआंग ली (मोनाश विद्यापीठ), वेन-डिंग ली (कॉर्नेल विद्यापीठ), मेगन रिस्डल (कॅगल), जिया ली (स्वतंत्र), जियान झू (ब्रिटिश कोलंबिया विद्यापीठ), टेरी युए झुओ (मोनाश विद्यापीठ + CSIRO चे Data61), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इस्रायल तंत्रज्ञान संस्था), नी ओसाए ओसाए दाडे (माझुमा), वेनहाओ यु (नॉट्रे डेम विद्यापीठ), लुकास क्रॉस (स्वतंत्र), नामन जैन (यूसी बर्कले), यिक्सुआन सु (कोहेअर), झुआनली हे (युनिव्हर्सिटी कॉलेज लंडन), मन्नन देय (सेल्सफोर्स), एडोआर्डो अबती (स्वतंत्र), येकुन चाई (बायडू), निक्लास मुएननिघॉफ (कॉन्टेक्स्ट्युअल एआय), झियांगरु टँग (येल विद्यापीठ), मुहताशाम ओब्लोकुलोव (टेक्निकल युनिव्हर्सिटी ऑफ म्युनिक), क्रिस्टोफर अकीकी (लायपझिग विद्यापीठ + ScaDS.AI), मार्क मारोने (जॉन्स हॉपकिन्स विद्यापीठ), चेंघाओ मौ (स्वतंत्र), मयंक मिश्रा (IBM रिसर्च), अॅलेक्स गु (MIT), बिनयुआन हुआ (स्वतंत्र), त्रि दाओ (प्रिन्स्टन विद्यापीठ), आर्मेल झेबाझ (हगिंगफेस), ओलिव्हियर डेहेन (हगिंगफेस), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Monash University), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), मोस्टोफा पतवारी (एनविडिया), निमा ताजबख्श (एनविडिया), यासिन जर्निते (हगिंगफेस), कार्लोस मुन्योझ फेर्रँडिस (हगिंगफेस), लिंगमिंग झांग (इलिनॉय विद्यापीठ अर्बाना-शॅम्पेन), शॉन ह्यूजेस (सर्व्हिसनाऊ), थॉमस वुल्फ (हगिंगफेस), लिआंद्रो वॉन वेरा (हगिंगफेस), हारम डी व्रीस (ServiceNow)
Abstract
BigCode प्रकल्प, जो कोडसाठी मोठ्या भाषा मॉडेल्सच्या (Code LLMs) जबाबदार विकासावर लक्ष केंद्रित करणारा एक मुक्त-वैज्ञानिक सहकार आहे, StarCoder2 सादर करतो. Software Heritage (SWH) सोबतच्या भागीदारीत, आम्ही त्यांच्या स्रोत कोड संग्रहाच्या डिजिटल कॉमन्सवर The Stack v2 तयार करतो. 619 प्रोग्रामिंग भाषांचा समावेश असलेल्या SWH रिपॉझिटरींसह, आम्ही GitHub पुल रिक्वेस्ट, Kaggle नोटबुक आणि कोड दस्तऐवजीकरण यांसारख्या इतर उच्च-गुणवत्तेच्या डेटा स्रोतांची काळजीपूर्वक निवड करतो. यामुळे पहिल्या StarCoder डेटासेटपेक्षा 4 पट मोठा प्रशिक्षण संच तयार होतो. आम्ही 3.3 ते 4.3 ट्रिलियन टोकन्सवर 3B, 7B, आणि 15B पॅरामीटर्ससह StarCoder2 मॉडेल्सचे प्रशिक्षण देतो आणि त्यांना कोड एलएलएम बेंचमार्कच्या सर्वसमावेशक संचावर सखोलपणे मूल्यांकन करतो. आम्हाला आढळले की आमचा लहान मॉडेल, StarCoder2-3B, बहुतेक बेंचमार्कवर समान आकाराच्या इतर कोड एलएलएम (Code LLMs) पेक्षा चांगले कामगिरी करतो, आणि StarCoderBase-15B पेक्षाही चांगले कामगिरी करतो. आमचा मोठा मॉडेल, StarCoder2-15B, तुलनेने समान आकाराच्या इतर मॉडेल्सपेक्षा लक्षणीयरीत्या चांगले कामगिरी करतो. याव्यतिरिक्त, हे CodeLlama-34B, ज्याचा आकार त्याच्यापेक्षा दुप्पटाहून अधिक आहे, त्याच्याशी बरोबरी साधते किंवा त्याला मात करते. जरी DeepSeekCoder-33B हा उच्च-संसाधन भाषांसाठी कोड पूर्णता (code completion) मध्ये सर्वोत्तम कामगिरी करणारा मॉडेल असला, तरी आम्हाला आढळले की StarCoder2-15B गणित आणि कोड तर्कशक्ती (code reasoning) बेंचमार्क तसेच अनेक कमी-संसाधन भाषांमध्ये त्यापेक्षा चांगली कामगिरी करतो. आम्ही मॉडेलचे वेट्स OpenRAIL परवान्याअंतर्गत उपलब्ध करून देतो आणि स्रोत कोड डेटाचे SoftWare Heritage persistent IDentifiers (SWHIDs) जाहीर करून प्रशिक्षण डेटाबाबत पूर्ण पारदर्शकता सुनिश्चित करतो.