Author
अर्जुन गुहा (Roblox + नॉर्थईस्टर्न यूनिवर्सिटी), रेमंड ली (ServiceNow), लूबना बेन अल्लाल (HuggingFace), यांगतियन ज़ी (नॉर्थईस्टर्न यूनिवर्सिटी), निक्लास मुएननिघॉफ (HuggingFace), डेनिस कोचेत्कोव (ServiceNow), चेंघाओ मौ (स्वतंत्र), मार्क मारोने (जॉन हॉपकिन्स यूनिवर्सिटी), क्रिस्टोफ़र अकीकी (लाइपज़िग विश्वविद्यालय + ScaDS.AI), जिया ली (स्वतंत्र), जेनी चिम (क्वीन मैरी यूनिवर्सिटी ऑफ लंदन), चियान लियू (सी एआई लैब), एवगेनी झेल्टोनोज्स्की (टेक्नियन – इज़राइल इंस्टीट्यूट ऑफ टेक्नोलॉजी), टेरी यू झूओ (मोनाश विश्वविद्यालय + CSIRO का Data61), थॉमस वांग (हगिंगफेस), ओलिवियर डेहेन (हगिंगफेस), मिशिग दावाडॉर्ज (हगिंगफेस), जोएल लैमी-पॉयरियर (सर्विसनाउ), जोआओ मोंटेइरो (सर्विसनाउ), ओलेह श्लियाज़्को (ServiceNow), निकोलस गोंटियर (ServiceNow), निकोलस मीड (Mila + McGill University), आर्मेल ज़ेबाज़े (HuggingFace), मिंग-हो यी (Northeastern University), लोकेश कुमार उमापति (Saama AI Research Lab), जियान झू (ब्रिटिश कोलंबिया विश्वविद्यालय), बेंजामिन लिपकिन (एमआईटी), मुहताशाम ओब्लोकुलोव (टेक्निकल यूनिवर्सिटी ऑफ म्यूनिख), झिरुओ वांग (कार्नेगी मेलन विश्वविद्यालय), रुद्र मूर्ति (आईबीएम रिसर्च), जेसन स्टिलरमैन (वर्मोंट विश्वविद्यालय), शिवा संकल्प पटेल (आईबीएम रिसर्च), दिमित्री अबुलखानोव (स्वतंत्र), मार्को ज़ोका (अनफोल्डएमएल), मन्नन देय (एसएपी), झिहान झांग (नॉट्रे डेम विश्वविद्यालय), नूर फाहमी (कोलंबिया विश्वविद्यालय), उर्वशी भट्टाचार्य (डिस्कवर डॉलर प्राइवेट लिमिटेड), वेनहाओ यू (नॉट्रे डेम विश्वविद्यालय), स्वायम सिंह (इलाहाबाद विश्वविद्यालय), साशा लुचिओनी (हगिंगफेस), पाउलो विलेगास (टेलीफोनिका I+D), मैक्सिम कुनाकोव (टोलोका), फेडोर झदानोव (टोलोका), मैनुअल रोमेरो (स्वतंत्र), टोनी ली (स्टैनफोर्ड विश्वविद्यालय), नादाव तिमोर (वाइज़मैन इंस्टीट्यूट ऑफ साइंस), जेनिफर डिंग (द एलन ट्यूरिंग इंस्टीट्यूट), क्लेयर श्लेसिंगर (नॉर्थईस्टर्न यूनिवर्सिटी), हैली श्कोल्कोप (एलेउथेर एआई), जान एबर्ट (फोर्शुंग्सज़ेंट्रम ज्यूलिख), त्रि दाओ (स्टैनफोर्ड विश्वविद्यालय), मयंक मिश्रा (आईबीएम रिसर्च), एलेक्स गु (एमआईटी), जेनिफर रॉबिन्सन (सर्विसनाउ), कैरोलिन जेन एंडरसन (वेलेस्ली कॉलेज), ब्रेंडन डोलन-गैवitt (एनवाईयू), Danish Contractor (स्वतंत्र), शिवा रेड्डी (सर्विसनाउ + मिला), डैनियल फ्रीड (कार्नेगी मेलन विश्वविद्यालय), ज़्मिट्री बाहदानौ (सर्विसनाउ), यासिन जर्निते (हगिंगफेस), कार्लोस मुनोज़ फेरैंडिस (हगिंगफेस), शॉन ह्यूजेस (सर्विसनाउ), थॉमस वुल्फ (हगिंगफेस), लिआंद्रो वॉन वेरा (हगिंगफेस), हारम डी व्रीस (सर्विसनाउ)
Venue
ट्रांजैक्शंस ऑन मशीन लर्निंग रिसर्च (TMLR) 2023
Abstract
बिगकोड समुदाय, जो कोड के लिए बड़े भाषा मॉडल (कोड एलएलएम) के जिम्मेदार विकास पर काम करने वाला एक खुला-वैज्ञानिक सहयोग है, स्टारकोडर और स्टारकोडरबेस पेश करता है: 8K संदर्भ लंबाई, पूर्ति क्षमताओं और मल्टी-क्वेरी अटेंशन द्वारा सक्षम तेज़ बड़े-बैच इंफरेंस वाले 15.5B पैरामीटर मॉडल। StarCoderBase को 'द स्टैक' पर प्रशिक्षित किया गया है, जो निरीक्षण उपकरणों और एक ऑप्ट-आउट प्रक्रिया के साथ, अनुमति-आधारित लाइसेंस वाली GitHub रिपॉजिटरी का एक बड़ा संग्रह है। हमने StarCoderBase को 35 अरब पाइथन टोकन पर फाइन-ट्यून किया, जिसके परिणामस्वरूप StarCoder का निर्माण हुआ। हम अब तक के कोड एलएलएम का सबसे व्यापक मूल्यांकन करते हैं और दिखाते हैं कि StarCoderBase हर उस ओपन कोड एलएलएम से बेहतर प्रदर्शन करता है जो कई प्रोग्रामिंग भाषाओं का समर्थन करता है और OpenAI के code-cushman-001 मॉडल के बराबर या उससे बेहतर प्रदर्शन करता है। इसके अलावा, StarCoder हर उस मॉडल से बेहतर प्रदर्शन करता है जिसे पाइथन पर फाइन-ट्यून किया गया है, जो HumanEval पर 40% pass@1 हासिल करने के लिए प्रॉम्प्ट किया जा सकता है, और फिर भी अन्य प्रोग्रामिंग भाषाओं में अपना प्रदर्शन बनाए रखता है। हम एक सुरक्षित ओपन-एक्सेस मॉडल रिलीज़ की दिशा में कई महत्वपूर्ण कदम उठाते हैं, जिसमें एक बेहतर PII रेडक्शन पाइपलाइन और एक नवीन एट्रिब्यूशन ट्रेसिंग टूल शामिल हैं, और StarCoder मॉडलों को Open Responsible AI Model लाइसेंस के एक अधिक व्यावसायिक रूप से व्यवहार्य संस्करण के तहत सार्वजनिक रूप से उपलब्ध कराते हैं।