स्टारकोडर 2 आणि द स्टॅक v2: पुढची पिढी

Author

अर्जुन गुहा (Roblox + Northeastern University), अँटन लोझ्कोव (HuggingFace), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), फेडेरिको कॅसानो (Northeastern University), जोएल लॅमी-पोइरियर (ServiceNow), नुआमाने ताझी (HuggingFace), आओ टँग (Nvidia), द्मित्रो पिक्टार (Nvidia), जियावेई लियू (University of Illinois Urbana-Champaign), युक्सियांग वेई (University of Illinois Urbana-Champaign), तियानयांग लियू (UC San Diego), मॅक्स तियान (ServiceNow), डेनिस कोचेत्कोव्ह (ServiceNow), आर्थर झुकर (HuggingFace), यंग बेल्काडा (HuggingFace), झिजान वांग (स्वतंत्र), कियान लियू (Sea AI Lab), दिमित्री अबुलखानोव्ह (स्वतंत्र), इंद्रानील पॉल (टेक्निकल युनिव्हर्सिटी ऑफ डार्मस्टाड्ट), झुआंग ली (मोनाश विद्यापीठ), वेन-डिंग ली (कॉर्नेल विद्यापीठ), मेगन रिस्डल (कॅगल), जिया ली (स्वतंत्र), जियान झू (ब्रिटिश कोलंबिया विद्यापीठ), टेरी युए झुओ (मोनाश विद्यापीठ + CSIRO चे Data61), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इस्रायल तंत्रज्ञान संस्था), नी ओसाए ओसाए दाडे (माझुमा), वेनहाओ यु (नॉट्रे डेम विद्यापीठ), लुकास क्रॉस (स्वतंत्र), नामन जैन (यूसी बर्कले), यिक्सुआन सु (कोहेअर), झुआनली हे (युनिव्हर्सिटी कॉलेज लंडन), मन्नन देय (सेल्सफोर्स), एडोआर्डो अबती (स्वतंत्र), येकुन चाई (बायडू), निक्लास मुएननिघॉफ (कॉन्टेक्स्ट्युअल एआय), झियांगरु टँग (येल विद्यापीठ), मुहताशाम ओब्लोकुलोव (टेक्निकल युनिव्हर्सिटी ऑफ म्युनिक), क्रिस्टोफर अकीकी (लायपझिग विद्यापीठ + ScaDS.AI), मार्क मारोने (जॉन्स हॉपकिन्स विद्यापीठ), चेंघाओ मौ (स्वतंत्र), मयंक मिश्रा (IBM रिसर्च), अॅलेक्स गु (MIT), बिनयुआन हुआ (स्वतंत्र), त्रि दाओ (प्रिन्स्टन विद्यापीठ), आर्मेल झेबाझ (हगिंगफेस), ओलिव्हियर डेहेन (हगिंगफेस), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Monash University), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), मोस्टोफा पतवारी (एनविडिया), निमा ताजबख्श (एनविडिया), यासिन जर्निते (हगिंगफेस), कार्लोस मुन्योझ फेर्रँडिस (हगिंगफेस), लिंगमिंग झांग (इलिनॉय विद्यापीठ अर्बाना-शॅम्पेन), शॉन ह्यूजेस (सर्व्हिसनाऊ), थॉमस वुल्फ (हगिंगफेस), लिआंद्रो वॉन वेरा (हगिंगफेस), हारम डी व्रीस (ServiceNow)

Venue

Abstract

BigCode प्रकल्प, जो कोडसाठी मोठ्या भाषा मॉडेल्सच्या (Code LLMs) जबाबदार विकासावर लक्ष केंद्रित करणारा एक मुक्त-वैज्ञानिक सहकार आहे, StarCoder2 सादर करतो. Software Heritage (SWH) सोबतच्या भागीदारीत, आम्ही त्यांच्या स्रोत कोड संग्रहाच्या डिजिटल कॉमन्सवर The Stack v2 तयार करतो. 619 प्रोग्रामिंग भाषांचा समावेश असलेल्या SWH रिपॉझिटरींसह, आम्ही GitHub पुल रिक्वेस्ट, Kaggle नोटबुक आणि कोड दस्तऐवजीकरण यांसारख्या इतर उच्च-गुणवत्तेच्या डेटा स्रोतांची काळजीपूर्वक निवड करतो. यामुळे पहिल्या StarCoder डेटासेटपेक्षा 4 पट मोठा प्रशिक्षण संच तयार होतो. आम्ही 3.3 ते 4.3 ट्रिलियन टोकन्सवर 3B, 7B, आणि 15B पॅरामीटर्ससह StarCoder2 मॉडेल्सचे प्रशिक्षण देतो आणि त्यांना कोड एलएलएम बेंचमार्कच्या सर्वसमावेशक संचावर सखोलपणे मूल्यांकन करतो. आम्हाला आढळले की आमचा लहान मॉडेल, StarCoder2-3B, बहुतेक बेंचमार्कवर समान आकाराच्या इतर कोड एलएलएम (Code LLMs) पेक्षा चांगले कामगिरी करतो, आणि StarCoderBase-15B पेक्षाही चांगले कामगिरी करतो. आमचा मोठा मॉडेल, StarCoder2-15B, तुलनेने समान आकाराच्या इतर मॉडेल्सपेक्षा लक्षणीयरीत्या चांगले कामगिरी करतो. याव्यतिरिक्त, हे CodeLlama-34B, ज्याचा आकार त्याच्यापेक्षा दुप्पटाहून अधिक आहे, त्याच्याशी बरोबरी साधते किंवा त्याला मात करते. जरी DeepSeekCoder-33B हा उच्च-संसाधन भाषांसाठी कोड पूर्णता (code completion) मध्ये सर्वोत्तम कामगिरी करणारा मॉडेल असला, तरी आम्हाला आढळले की StarCoder2-15B गणित आणि कोड तर्कशक्ती (code reasoning) बेंचमार्क तसेच अनेक कमी-संसाधन भाषांमध्ये त्यापेक्षा चांगली कामगिरी करतो. आम्ही मॉडेलचे वेट्स OpenRAIL परवान्याअंतर्गत उपलब्ध करून देतो आणि स्रोत कोड डेटाचे SoftWare Heritage persistent IDentifiers (SWHIDs) जाहीर करून प्रशिक्षण डेटाबाबत पूर्ण पारदर्शकता सुनिश्चित करतो.

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा

सर्व नोकऱ्या पहा

नवीनतम

अधिक निकाल

स्टारकोडर 2 आणि द स्टॅक v2: पुढची पिढी

Author

Venue

Abstract

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा

स्टारकोडर 2 आणि द स्टॅक v2: पुढची पिढी

Author

Venue

Abstract

Related Publications

क्यूबपार्ट: एक खुल्या शब्दसंग्रहाचा, भागांनुसार नियंत्रित करता येणारा 3D जनरेटर

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

कॅटलॉग-नेटिव्ह एलएलएम: शिफारसीसाठी कमी गुंतागुंतीसह आयटम-आयडी बोली बोलणे

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा