Author
অর্জুন গুহ (Roblox + নর্থইস্টার্ন ইউনিভার্সিটি), আন্তন লঝকভ (HuggingFace), রেমন্ড লি (ServiceNow), লুবনা বেন আল্লাল (HuggingFace), ফেডেরিকো ক্যাসানো (নর্থইস্টার্ন ইউনিভার্সিটি), জোয়েল লামি-পোয়ারিয়ে (ServiceNow), নুয়ামান তাজি (HuggingFace), আও তাং (Nvidia), দিমিত্রো পিকহার (Nvidia), জিয়াওয়েই লিউ (ইলিনয় বিশ্ববিদ্যালয়, আরবাণা-শ্যাম্পেইন), ইউশিয়াং ওয়েই (ইলিনয় বিশ্ববিদ্যালয়, আরবাণা-শ্যাম্পেইন), তিয়ানয়াং লিউ (ইউসি সান দিয়েগো), ম্যাক্স তিয়ান (ServiceNow), ডেনিস কোচেটকভ (ServiceNow), আর্থার জুকার (HuggingFace), ইয়ং বেলকাডা (HuggingFace), জিজান ওয়াং (স্বতন্ত্র), কিয়ান লিউ (Sea AI Lab), দিমিত্রি আবুলখানভ (স্বতন্ত্র), ইন্দ্রানীল পল (টেকনিক্যাল ইউনিভার্সিটি অব ডার্মস্টাডট), ঝুয়াং লি (মোনাশ বিশ্ববিদ্যালয়), ওয়েন-ডিং লি (কর্নেল বিশ্ববিদ্যালয়), মেগান রিসডাল (ক্যাগল), জিয়া লি (স্বতন্ত্র), জিয়ান ঝু (ব্রিটিশ কলম্বিয়া বিশ্ববিদ্যালয়), টেরি ইউয়ে ঝুও (মোনাশ বিশ্ববিদ্যালয় + সিএসআইআরও'স ডেটা৬১), ইভজেনি ঝেল্টোনোঝস্কি (টেকনিয়ন – ইস্রায়েল ইনস্টিটিউট অফ টেকনোলজি), নিই ওসে ওসে ডেড (মাজুমা), ওয়েনহাও ইউ (নটর ডেম বিশ্ববিদ্যালয়), লুকাস ক্রাউস (স্বতন্ত্র), নামান জৈন (ইউসি বার্কলে), ইক্সুয়ান সু (কোহের), ঝুয়ানলি হে (ইউনিভার্সিটি কলেজ লন্ডন), মানান দেই (সেলসফোর্স), এডোয়ার্ডো আবাতী (স্বতন্ত্র), ইয়েকুন চাই (বায়ডু), নিকলাস মুয়েননিঘফ (কনটেক্সচুয়াল এআই), ঝিয়াংরু ট্যাং (ইয়েল বিশ্ববিদ্যালয়), মুহতাসাম ওবুলকুলভ (টেকনিক্যাল ইউনিভার্সিটি অফ মিউনিখ), ক্রিস্টোফার আকিকি (লেইপজিগ বিশ্ববিদ্যালয় + ScaDS.AI), মার্ক মারোনে (জনস হপকিনস বিশ্ববিদ্যালয়), চেংহাও মু (স্বতন্ত্র), মায়ঙ্ক মিশ্র (IBM রিসার্চ), অ্যালেক্স গু (MIT), বিনইউয়ান হুই (স্বতন্ত্র), ত্রি দা (প্রিন্সটন বিশ্ববিদ্যালয়), আর্মেল জেবাজে (HuggingFace), অলিভিয়ে ডেহেইন (HuggingFace), নিকোলাস প্যাট্রি (হাগিংফেস), ক্যানওয়েন ঝু (ইউসি সান দিয়েগো), জুলিয়ান ম্যাকঅলি (ইউসি সান দিয়েগো), হান হু (মোনাশ বিশ্ববিদ্যালয়), টরস্টেন শোলাক (সার্ভিসনও), সেবাস্তিয়ান প্যাকোয়েট (সার্ভিসনও), জেনিফার রবিনসন (সার্ভিসনও), ক্যারোলিন জেন অ্যান্ডারসন (ওয়েলেসলি কলেজ), নিকোলাস চ্যাপাডোস (সার্ভিসনও), মোস্তফা পাটওয়ারী (এনভিডিয়া), নিমা তাজবখশ (এনভিডিয়া), ইয়াসিন জেরনিতে (হাগিংফেস), কার্লোস মুনিওজ ফেরান্ডিস (হাগিংফেস), লিংমিং ঝাং (ইলিনয় বিশ্ববিদ্যালয়, উর্বানা-শ্যাম্পেইন), শন হিউজেস (সার্ভিসনও), থমাস উলফ (হাগিংফেস), লিয়ান্ড্রো ভন ভেরা (হাগিংফেস), হার্ম দে ভ্রিস (ServiceNow)
Abstract
BigCode প্রকল্প, একটি উন্মুক্ত-বৈজ্ঞানিক সহযোগিতা যা কোডের জন্য বৃহৎ ভাষামডেল (Code LLMs) দায়িত্বশীলভাবে উন্নয়নের উপর কেন্দ্রীভূত, StarCoder2 উপস্থাপন করছে। Software Heritage (SWH)-এর সাথে অংশীদারিত্বে, আমরা তাদের সোর্স কোড আর্কাইভের ডিজিটাল সাধারণ সম্পদের উপর The Stack v2 তৈরি করি। SWH-এর ৬১৯টি প্রোগ্রামিং ভাষা জুড়ে বিস্তৃত রিপোজিটরির পাশাপাশি, আমরা GitHub pull requests, Kaggle notebooks, এবং code documentation-এর মতো অন্যান্য উচ্চ-মানের ডেটা উৎস সাবধানে নির্বাচন করি। এর ফলে প্রথম StarCoder ডেটাসেটের তুলনায় ৪ গুণ বড় একটি প্রশিক্ষণ সেট তৈরি হয়। আমরা StarCoder2 মডেলগুলোকে 3B, 7B, এবং 15B প্যারামিটারে 3.3 থেকে 4.3 ট্রিলিয়ন টোকেনে প্রশিক্ষণ দিই এবং একটি ব্যাপক Code LLM বেঞ্চমার্ক সেটে সেগুলোকে পুঙ্খানুপুঙ্খভাবে মূল্যায়ন করি। আমরা দেখতে পাই যে আমাদের ছোট মডেল, StarCoder2-3B, অধিকাংশ বেঞ্চমার্কে একই আকারের অন্যান্য কোড এলএলএম-দের তুলনায় ভালো পারফর্ম করে, এবং StarCoderBase-15B-কেও ছাড়িয়ে যায়। আমাদের বড় মডেল, StarCoder2-15B, তুলনামূলক আকারের অন্যান্য মডেলগুলির তুলনায় উল্লেখযোগ্যভাবে ভালো পারফর্ম করে। এছাড়াও, এটি CodeLlama-34B-এর সাথে সমপরিমাণ বা তার থেকেও ভালো ফলাফল দেখায়, যা এর চেয়ে দ্বিগুণেরও বেশি আকারের একটি মডেল। যদিও DeepSeekCoder-33B উচ্চ-সম্পদ ভাষাগুলির জন্য কোড সম্পূর্ণকরণে সেরা মডেল, আমরা দেখতে পাই যে StarCoder2-15B গণিত এবং কোড যুক্তি-নির্ধারণের বেঞ্চমার্কে, পাশাপাশি বেশ কিছু কম-সম্পদ ভাষায় এর থেকেও ভালো করে। আমরা মডেল ওজনের ফাইলগুলো OpenRAIL লাইসেন্সের অধীনে উপলব্ধ করছি এবং প্রশিক্ষণ ডেটার বিষয়ে সম্পূর্ণ স্বচ্ছতা নিশ্চিত করতে সোর্স কোড ডেটার SoftWare Heritage persistent IDentifiers (SWHIDs) প্রকাশ করছি।