இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

ஸ்டார்கோடர் 2 மற்றும் தி ஸ்டேக் v2: அடுத்த தலைமுறை

View Publication

Author

அர்ஜுன் குஹா (ராப்ளாக்ஸ் + நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஆண்டன் லோஸ்கோவ் (ஹக்கிங்ஃபேஸ்), ரேமண்ட் லி (சர்வீஸ்நௌ), லூப்னா பென் அல்லால் (ஹக்கிங்ஃபேஸ்), ஃபெடரிகோ காசானோ (நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஜோயல் லமி-போயரியர் (சர்வீஸ்நௌ), நூமானே தஸி (ஹக்கிங்ஃபேஸ்), ஆவோ டாங் (என்விடியா), டிம்ட்ரோ பிக்டர் (என்விடியா), ஜியாவெய் லியு (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), யுக்சியாங் வெய் (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), தியான்யாங் லியு (யுசி சான் டியாகோ), மாக்ஸ் தியான் (சர்வீஸ்நௌ), டெனிஸ் கோசெட்கோவ் (சர்வீஸ்நௌ), ஆர்தர் ஸுக்கர் (ஹக்கிங்ஃபேஸ்), யங் பெல்கடா (ஹக்கிங்ஃபேஸ்), ஜிஜான் வாங் (தன்னிச்சையான), கியான் லியு (சீ ஏஐ லேப்), டிமிட்ரி அபுல்கானோவ் (தன்னிச்சையான), இந்திரநீல் பால் (டார்ம்ஸ்டாட் தொழில்நுட்பப் பல்கலைக்கழகம்), ஜுவாங் லி (மோனாஷ் பல்கலைக்கழகம்), வென்-டிங் லி (கார்னெல் பல்கலைக்கழகம்), மெகன் ரிஸ்டல் (காகில்), ஜியா லி (தன்னிச்சையான), ஜியான் ஜு (பிரிட்டிஷ் கொலம்பியா பல்கலைக்கழகம்), டெர்ரி யூயு ஜுவோ (மோனாஷ் பல்கலைக்கழகம் + CSIRO-வின் Data61), எவ்ஜெனி ஜெல்டோனோஸ்கி (டெக்னியன் – இஸ்ரேல் தொழில்நுட்ப நிறுவனம்), நீ ஓசே ஓசே டேட் (மஸுமா), வென்ஹாவோ யூ (நோட்டர் டேம் பல்கலைக்கழகம்), லூகாஸ் க்ராஸ் (சுயாதீன), நமன் ஜைன் (யுசி பெர்க்லி), யிஷுவான் சு (கோஹியர்), சூன்லி ஹே (யுனிவர்சிட்டி காலேஜ் லண்டன்), மானன் தேய் (சேல்ஸ்ஃபோர்ஸ்), எடோர்டோ அபட்டி (தன்னிச்சையான), யெகுன் சை (பைடு), நிக்லாஸ் மெனிகோஃப் (கontekstual AI), ஷியாங்ரு டாங் (யேல் பல்கலைக்கழகம்), முஹ்தாஷாம் ஒப்லகுலோவ் (டெக்னிக்கல் பல்கலைக்கழகம், மியூனிக்), கிறிஸ்டோபர் அக்கி (லைப்சிக் பல்கலைக்கழகம் + ScaDS.AI), மார்க் மரோன் (ஜான்ஸ் ஹாப்கின்ஸ் பல்கலைக்கழகம்), செங்ஹாவோ மௌ (தன்னிச்சையான), மயங்க் மிஸ்ரா (IBM ரிசர்ச்), அலெக்ஸ் கு (MIT), பின்யுவான் ஹுய் (தன்னிச்சையான), ட்ரி டாவோ (பிரின்ஸ்டன் பல்கலைக்கழகம்), ஆர்மெல் செபாஸ் (ஹக்கிங்ஃபேஸ்), ஓலிவியர் டெஹேன் (ஹக்கிங்ஃபேஸ்), நிக்கோலஸ் பாட்ரி (ஹக்கிங்ஃபேஸ்), கான்வென் சூ (யுசி சான் டியாகோ), ஜூலியன் மெக்காலை (யுசி சான் டியாகோ), ஹான் ஹு (மோனாஷ் பல்கலைக்கழகம்), டார்ஸ்டன் ஷோலாக் (சர்வீஸ்நௌ), செபாஸ்டியன் பாக்கெட் (சர்வீஸ்நௌ), ஜெனிஃபர் ராபின்சன் (சர்வீஸ்நௌ), கரோலின் ஜேன் ஆண்டர்சன் (வெல்ஸ்லி கல்லூரி), நிக்கோலஸ் சபாடோஸ் (சர்வீஸ்நௌ), முஸ்தபா பட்வாரி (என்விடியா), நிமா தஜ்பக்ஷ் (என்விடியா), யாஸின் ஜெர்னைட் (ஹக்கிங்ஃபேஸ்), கார்லோஸ் முனோஸ் ஃபெரான்டிஸ் (ஹக்கிங்ஃபேஸ்), லிங்மிங் ஜாங் (இல்லினாய்ஸ் பல்கலைக்கழகம், அர்பானா-ஷாம்பெயின்), சீன் ஹியூஸ் (சர்வீஸ்நௌ), தாமஸ் வோல்ஃப் (ஹக்கிங்ஃபேஸ்), லியான்ட்ரோ வான் வெரா (ஹக்கிங்ஃபேஸ்), ஹார்ம் டி வ்ரீஸ் (ServiceNow)

Venue

Abstract

குறியீட்டிற்கான பெரிய மொழி மாதிரிகளின் (Code LLMs) பொறுப்பான மேம்பாட்டில் கவனம் செலுத்தும் ஒரு திறந்த அறிவியல் கூட்டு முயற்சியான பிக் கோட் (BigCode) திட்டம், ஸ்டார்கோடர்2-ஐ (StarCoder2) அறிமுகப்படுத்துகிறது. சாஃப்ட்வேர் ஹெரிடேஜ் (SWH) உடன் இணைந்து, அவர்களின் மூலக் குறியீடு காப்பகத்தின் டிஜிட்டல் பொதுச் சொத்துக்களின் மீது நாங்கள் தி ஸ்டேக் v2-ஐ (The Stack v2) உருவாக்குகிறோம். 619 நிரலாக்க மொழிகளை உள்ளடக்கிய SWH களஞ்சியங்களுடன், GitHub இழுப்புக் கோரிக்கைகள், Kaggle குறிப்பேடுகள் மற்றும் குறியீடு ஆவணங்கள் போன்ற பிற உயர்தர தரவு மூலங்களையும் நாங்கள் கவனமாகத் தேர்ந்தெடுக்கிறோம். இது முதல் StarCoder தரவுத்தொகுப்பை விட 4 மடங்கு பெரிய ஒரு பயிற்சித் தொகுப்பை உருவாக்குகிறது. 3.3 முதல் 4.3 டிரில்லியன் டோக்கன்களில் 3B, 7B, மற்றும் 15B அளவுருக்கள் கொண்ட StarCoder2 மாடல்களைப் பயிற்றுவித்து, ஒரு விரிவான Code LLM அளவுகோல்களின் தொகுப்பில் அவற்றை முழுமையாக மதிப்பீடு செய்கிறோம். எங்கள் சிறிய மாடலான StarCoder2-3B, பெரும்பாலான அளவுகோல்களில் அதே அளவுள்ள மற்ற கோட் LLM-களை விட சிறப்பாகச் செயல்படுவதையும், StarCoderBase-15B-ஐயும் மிஞ்சுவதையும் நாங்கள் காண்கிறோம். எங்கள் பெரிய மாடலான StarCoder2-15B, ஒப்பிடக்கூடிய அளவுள்ள மற்ற மாடல்களை விட குறிப்பிடத்தக்க வகையில் சிறப்பாகச் செயல்படுகிறது. கூடுதலாக, இது அதன் அளவை விட இரண்டு மடங்கு பெரிய மாடலான CodeLlama-34B உடன் சமமாகவோ அல்லது அதைவிட சிறப்பாகவோ செயல்படுகிறது. அதிக வளம் கொண்ட மொழிகளுக்கான குறியீடு பூர்த்தி செய்வதில் DeepSeekCoder-33B சிறந்த செயல்திறன் கொண்ட மாடலாக இருந்தாலும், கணிதம் மற்றும் குறியீடு பகுத்தறிவு சோதனைத் தளங்களிலும், பல குறைந்த வளம் கொண்ட மொழிகளிலும் StarCoder2-15B அதைவிட சிறப்பாக செயல்படுவதை நாங்கள் காண்கிறோம். மாடல் எடைகளை ஒரு OpenRAIL உரிமத்தின் கீழ் நாங்கள் கிடைக்கச் செய்கிறோம், மேலும் மூலக் குறியீடு தரவின் மென்பொருள் பாரம்பரிய நிரந்தர அடையாளங்காட்டிகளை (SWHIDs) வெளியிடுவதன் மூலம் பயிற்சித் தரவு தொடர்பான முழுமையான வெளிப்படைத்தன்மையை உறுதி செய்கிறோம்.