Author
அர்ஜுன் குஹா (ராப்ளாக்ஸ் + நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஆண்டன் லோஸ்கோவ் (ஹக்கிங்ஃபேஸ்), ரேமண்ட் லி (சர்வீஸ்நௌ), லூப்னா பென் அல்லால் (ஹக்கிங்ஃபேஸ்), ஃபெடரிகோ காசானோ (நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஜோயல் லமி-போயரியர் (சர்வீஸ்நௌ), நூமானே தஸி (ஹக்கிங்ஃபேஸ்), ஆவோ டாங் (என்விடியா), டிம்ட்ரோ பிக்டர் (என்விடியா), ஜியாவெய் லியு (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), யுக்சியாங் வெய் (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), தியான்யாங் லியு (யுசி சான் டியாகோ), மாக்ஸ் தியான் (சர்வீஸ்நௌ), டெனிஸ் கோசெட்கோவ் (சர்வீஸ்நௌ), ஆர்தர் ஸுக்கர் (ஹக்கிங்ஃபேஸ்), யங் பெல்கடா (ஹக்கிங்ஃபேஸ்), ஜிஜான் வாங் (தன்னிச்சையான), கியான் லியு (சீ ஏஐ லேப்), டிமிட்ரி அபுல்கானோவ் (தன்னிச்சையான), இந்திரநீல் பால் (டார்ம்ஸ்டாட் தொழில்நுட்பப் பல்கலைக்கழகம்), ஜுவாங் லி (மோனாஷ் பல்கலைக்கழகம்), வென்-டிங் லி (கார்னெல் பல்கலைக்கழகம்), மெகன் ரிஸ்டல் (காகில்), ஜியா லி (தன்னிச்சையான), ஜியான் ஜு (பிரிட்டிஷ் கொலம்பியா பல்கலைக்கழகம்), டெர்ரி யூயு ஜுவோ (மோனாஷ் பல்கலைக்கழகம் + CSIRO-வின் Data61), எவ்ஜெனி ஜெல்டோனோஸ்கி (டெக்னியன் – இஸ்ரேல் தொழில்நுட்ப நிறுவனம்), நீ ஓசே ஓசே டேட் (மஸுமா), வென்ஹாவோ யூ (நோட்டர் டேம் பல்கலைக்கழகம்), லூகாஸ் க்ராஸ் (சுயாதீன), நமன் ஜைன் (யுசி பெர்க்லி), யிஷுவான் சு (கோஹியர்), சூன்லி ஹே (யுனிவர்சிட்டி காலேஜ் லண்டன்), மானன் தேய் (சேல்ஸ்ஃபோர்ஸ்), எடோர்டோ அபட்டி (தன்னிச்சையான), யெகுன் சை (பைடு), நிக்லாஸ் மெனிகோஃப் (கontekstual AI), ஷியாங்ரு டாங் (யேல் பல்கலைக்கழகம்), முஹ்தாஷாம் ஒப்லகுலோவ் (டெக்னிக்கல் பல்கலைக்கழகம், மியூனிக்), கிறிஸ்டோபர் அக்கி (லைப்சிக் பல்கலைக்கழகம் + ScaDS.AI), மார்க் மரோன் (ஜான்ஸ் ஹாப்கின்ஸ் பல்கலைக்கழகம்), செங்ஹாவோ மௌ (தன்னிச்சையான), மயங்க் மிஸ்ரா (IBM ரிசர்ச்), அலெக்ஸ் கு (MIT), பின்யுவான் ஹுய் (தன்னிச்சையான), ட்ரி டாவோ (பிரின்ஸ்டன் பல்கலைக்கழகம்), ஆர்மெல் செபாஸ் (ஹக்கிங்ஃபேஸ்), ஓலிவியர் டெஹேன் (ஹக்கிங்ஃபேஸ்), நிக்கோலஸ் பாட்ரி (ஹக்கிங்ஃபேஸ்), கான்வென் சூ (யுசி சான் டியாகோ), ஜூலியன் மெக்காலை (யுசி சான் டியாகோ), ஹான் ஹு (மோனாஷ் பல்கலைக்கழகம்), டார்ஸ்டன் ஷோலாக் (சர்வீஸ்நௌ), செபாஸ்டியன் பாக்கெட் (சர்வீஸ்நௌ), ஜெனிஃபர் ராபின்சன் (சர்வீஸ்நௌ), கரோலின் ஜேன் ஆண்டர்சன் (வெல்ஸ்லி கல்லூரி), நிக்கோலஸ் சபாடோஸ் (சர்வீஸ்நௌ), முஸ்தபா பட்வாரி (என்விடியா), நிமா தஜ்பக்ஷ் (என்விடியா), யாஸின் ஜெர்னைட் (ஹக்கிங்ஃபேஸ்), கார்லோஸ் முனோஸ் ஃபெரான்டிஸ் (ஹக்கிங்ஃபேஸ்), லிங்மிங் ஜாங் (இல்லினாய்ஸ் பல்கலைக்கழகம், அர்பானா-ஷாம்பெயின்), சீன் ஹியூஸ் (சர்வீஸ்நௌ), தாமஸ் வோல்ஃப் (ஹக்கிங்ஃபேஸ்), லியான்ட்ரோ வான் வெரா (ஹக்கிங்ஃபேஸ்), ஹார்ம் டி வ்ரீஸ் (ServiceNow)
Abstract
குறியீட்டிற்கான பெரிய மொழி மாதிரிகளின் (Code LLMs) பொறுப்பான மேம்பாட்டில் கவனம் செலுத்தும் ஒரு திறந்த அறிவியல் கூட்டு முயற்சியான பிக் கோட் (BigCode) திட்டம், ஸ்டார்கோடர்2-ஐ (StarCoder2) அறிமுகப்படுத்துகிறது. சாஃப்ட்வேர் ஹெரிடேஜ் (SWH) உடன் இணைந்து, அவர்களின் மூலக் குறியீடு காப்பகத்தின் டிஜிட்டல் பொதுச் சொத்துக்களின் மீது நாங்கள் தி ஸ்டேக் v2-ஐ (The Stack v2) உருவாக்குகிறோம். 619 நிரலாக்க மொழிகளை உள்ளடக்கிய SWH களஞ்சியங்களுடன், GitHub இழுப்புக் கோரிக்கைகள், Kaggle குறிப்பேடுகள் மற்றும் குறியீடு ஆவணங்கள் போன்ற பிற உயர்தர தரவு மூலங்களையும் நாங்கள் கவனமாகத் தேர்ந்தெடுக்கிறோம். இது முதல் StarCoder தரவுத்தொகுப்பை விட 4 மடங்கு பெரிய ஒரு பயிற்சித் தொகுப்பை உருவாக்குகிறது. 3.3 முதல் 4.3 டிரில்லியன் டோக்கன்களில் 3B, 7B, மற்றும் 15B அளவுருக்கள் கொண்ட StarCoder2 மாடல்களைப் பயிற்றுவித்து, ஒரு விரிவான Code LLM அளவுகோல்களின் தொகுப்பில் அவற்றை முழுமையாக மதிப்பீடு செய்கிறோம். எங்கள் சிறிய மாடலான StarCoder2-3B, பெரும்பாலான அளவுகோல்களில் அதே அளவுள்ள மற்ற கோட் LLM-களை விட சிறப்பாகச் செயல்படுவதையும், StarCoderBase-15B-ஐயும் மிஞ்சுவதையும் நாங்கள் காண்கிறோம். எங்கள் பெரிய மாடலான StarCoder2-15B, ஒப்பிடக்கூடிய அளவுள்ள மற்ற மாடல்களை விட குறிப்பிடத்தக்க வகையில் சிறப்பாகச் செயல்படுகிறது. கூடுதலாக, இது அதன் அளவை விட இரண்டு மடங்கு பெரிய மாடலான CodeLlama-34B உடன் சமமாகவோ அல்லது அதைவிட சிறப்பாகவோ செயல்படுகிறது. அதிக வளம் கொண்ட மொழிகளுக்கான குறியீடு பூர்த்தி செய்வதில் DeepSeekCoder-33B சிறந்த செயல்திறன் கொண்ட மாடலாக இருந்தாலும், கணிதம் மற்றும் குறியீடு பகுத்தறிவு சோதனைத் தளங்களிலும், பல குறைந்த வளம் கொண்ட மொழிகளிலும் StarCoder2-15B அதைவிட சிறப்பாக செயல்படுவதை நாங்கள் காண்கிறோம். மாடல் எடைகளை ஒரு OpenRAIL உரிமத்தின் கீழ் நாங்கள் கிடைக்கச் செய்கிறோம், மேலும் மூலக் குறியீடு தரவின் மென்பொருள் பாரம்பரிய நிரந்தர அடையாளங்காட்டிகளை (SWHIDs) வெளியிடுவதன் மூலம் பயிற்சித் தரவு தொடர்பான முழுமையான வெளிப்படைத்தன்மையை உறுதி செய்கிறோம்.