ஸ்டார்கோடர் 2 மற்றும் தி ஸ்டேக் v2: அடுத்த தலைமுறை

Author

அர்ஜுன் குஹா (ராப்ளாக்ஸ் + நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஆண்டன் லோஸ்கோவ் (ஹக்கிங்ஃபேஸ்), ரேமண்ட் லி (சர்வீஸ்நௌ), லூப்னா பென் அல்லால் (ஹக்கிங்ஃபேஸ்), ஃபெடரிகோ காசானோ (நார்த்ஈஸ்டர்ன் பல்கலைக்கழகம்), ஜோயல் லமி-போயரியர் (சர்வீஸ்நௌ), நூமானே தஸி (ஹக்கிங்ஃபேஸ்), ஆவோ டாங் (என்விடியா), டிம்ட்ரோ பிக்டர் (என்விடியா), ஜியாவெய் லியு (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), யுக்சியாங் வெய் (இல்லினாய்ஸ் அர்பானா-ஷாம்பெயின் பல்கலைக்கழகம்), தியான்யாங் லியு (யுசி சான் டியாகோ), மாக்ஸ் தியான் (சர்வீஸ்நௌ), டெனிஸ் கோசெட்கோவ் (சர்வீஸ்நௌ), ஆர்தர் ஸுக்கர் (ஹக்கிங்ஃபேஸ்), யங் பெல்கடா (ஹக்கிங்ஃபேஸ்), ஜிஜான் வாங் (தன்னிச்சையான), கியான் லியு (சீ ஏஐ லேப்), டிமிட்ரி அபுல்கானோவ் (தன்னிச்சையான), இந்திரநீல் பால் (டார்ம்ஸ்டாட் தொழில்நுட்பப் பல்கலைக்கழகம்), ஜுவாங் லி (மோனாஷ் பல்கலைக்கழகம்), வென்-டிங் லி (கார்னெல் பல்கலைக்கழகம்), மெகன் ரிஸ்டல் (காகில்), ஜியா லி (தன்னிச்சையான), ஜியான் ஜு (பிரிட்டிஷ் கொலம்பியா பல்கலைக்கழகம்), டெர்ரி யூயு ஜுவோ (மோனாஷ் பல்கலைக்கழகம் + CSIRO-வின் Data61), எவ்ஜெனி ஜெல்டோனோஸ்கி (டெக்னியன் – இஸ்ரேல் தொழில்நுட்ப நிறுவனம்), நீ ஓசே ஓசே டேட் (மஸுமா), வென்ஹாவோ யூ (நோட்டர் டேம் பல்கலைக்கழகம்), லூகாஸ் க்ராஸ் (சுயாதீன), நமன் ஜைன் (யுசி பெர்க்லி), யிஷுவான் சு (கோஹியர்), சூன்லி ஹே (யுனிவர்சிட்டி காலேஜ் லண்டன்), மானன் தேய் (சேல்ஸ்ஃபோர்ஸ்), எடோர்டோ அபட்டி (தன்னிச்சையான), யெகுன் சை (பைடு), நிக்லாஸ் மெனிகோஃப் (கontekstual AI), ஷியாங்ரு டாங் (யேல் பல்கலைக்கழகம்), முஹ்தாஷாம் ஒப்லகுலோவ் (டெக்னிக்கல் பல்கலைக்கழகம், மியூனிக்), கிறிஸ்டோபர் அக்கி (லைப்சிக் பல்கலைக்கழகம் + ScaDS.AI), மார்க் மரோன் (ஜான்ஸ் ஹாப்கின்ஸ் பல்கலைக்கழகம்), செங்ஹாவோ மௌ (தன்னிச்சையான), மயங்க் மிஸ்ரா (IBM ரிசர்ச்), அலெக்ஸ் கு (MIT), பின்யுவான் ஹுய் (தன்னிச்சையான), ட்ரி டாவோ (பிரின்ஸ்டன் பல்கலைக்கழகம்), ஆர்மெல் செபாஸ் (ஹக்கிங்ஃபேஸ்), ஓலிவியர் டெஹேன் (ஹக்கிங்ஃபேஸ்), நிக்கோலஸ் பாட்ரி (ஹக்கிங்ஃபேஸ்), கான்வென் சூ (யுசி சான் டியாகோ), ஜூலியன் மெக்காலை (யுசி சான் டியாகோ), ஹான் ஹு (மோனாஷ் பல்கலைக்கழகம்), டார்ஸ்டன் ஷோலாக் (சர்வீஸ்நௌ), செபாஸ்டியன் பாக்கெட் (சர்வீஸ்நௌ), ஜெனிஃபர் ராபின்சன் (சர்வீஸ்நௌ), கரோலின் ஜேன் ஆண்டர்சன் (வெல்ஸ்லி கல்லூரி), நிக்கோலஸ் சபாடோஸ் (சர்வீஸ்நௌ), முஸ்தபா பட்வாரி (என்விடியா), நிமா தஜ்பக்ஷ் (என்விடியா), யாஸின் ஜெர்னைட் (ஹக்கிங்ஃபேஸ்), கார்லோஸ் முனோஸ் ஃபெரான்டிஸ் (ஹக்கிங்ஃபேஸ்), லிங்மிங் ஜாங் (இல்லினாய்ஸ் பல்கலைக்கழகம், அர்பானா-ஷாம்பெயின்), சீன் ஹியூஸ் (சர்வீஸ்நௌ), தாமஸ் வோல்ஃப் (ஹக்கிங்ஃபேஸ்), லியான்ட்ரோ வான் வெரா (ஹக்கிங்ஃபேஸ்), ஹார்ம் டி வ்ரீஸ் (ServiceNow)

Venue

Abstract

குறியீட்டிற்கான பெரிய மொழி மாதிரிகளின் (Code LLMs) பொறுப்பான மேம்பாட்டில் கவனம் செலுத்தும் ஒரு திறந்த அறிவியல் கூட்டு முயற்சியான பிக் கோட் (BigCode) திட்டம், ஸ்டார்கோடர்2-ஐ (StarCoder2) அறிமுகப்படுத்துகிறது. சாஃப்ட்வேர் ஹெரிடேஜ் (SWH) உடன் இணைந்து, அவர்களின் மூலக் குறியீடு காப்பகத்தின் டிஜிட்டல் பொதுச் சொத்துக்களின் மீது நாங்கள் தி ஸ்டேக் v2-ஐ (The Stack v2) உருவாக்குகிறோம். 619 நிரலாக்க மொழிகளை உள்ளடக்கிய SWH களஞ்சியங்களுடன், GitHub இழுப்புக் கோரிக்கைகள், Kaggle குறிப்பேடுகள் மற்றும் குறியீடு ஆவணங்கள் போன்ற பிற உயர்தர தரவு மூலங்களையும் நாங்கள் கவனமாகத் தேர்ந்தெடுக்கிறோம். இது முதல் StarCoder தரவுத்தொகுப்பை விட 4 மடங்கு பெரிய ஒரு பயிற்சித் தொகுப்பை உருவாக்குகிறது. 3.3 முதல் 4.3 டிரில்லியன் டோக்கன்களில் 3B, 7B, மற்றும் 15B அளவுருக்கள் கொண்ட StarCoder2 மாடல்களைப் பயிற்றுவித்து, ஒரு விரிவான Code LLM அளவுகோல்களின் தொகுப்பில் அவற்றை முழுமையாக மதிப்பீடு செய்கிறோம். எங்கள் சிறிய மாடலான StarCoder2-3B, பெரும்பாலான அளவுகோல்களில் அதே அளவுள்ள மற்ற கோட் LLM-களை விட சிறப்பாகச் செயல்படுவதையும், StarCoderBase-15B-ஐயும் மிஞ்சுவதையும் நாங்கள் காண்கிறோம். எங்கள் பெரிய மாடலான StarCoder2-15B, ஒப்பிடக்கூடிய அளவுள்ள மற்ற மாடல்களை விட குறிப்பிடத்தக்க வகையில் சிறப்பாகச் செயல்படுகிறது. கூடுதலாக, இது அதன் அளவை விட இரண்டு மடங்கு பெரிய மாடலான CodeLlama-34B உடன் சமமாகவோ அல்லது அதைவிட சிறப்பாகவோ செயல்படுகிறது. அதிக வளம் கொண்ட மொழிகளுக்கான குறியீடு பூர்த்தி செய்வதில் DeepSeekCoder-33B சிறந்த செயல்திறன் கொண்ட மாடலாக இருந்தாலும், கணிதம் மற்றும் குறியீடு பகுத்தறிவு சோதனைத் தளங்களிலும், பல குறைந்த வளம் கொண்ட மொழிகளிலும் StarCoder2-15B அதைவிட சிறப்பாக செயல்படுவதை நாங்கள் காண்கிறோம். மாடல் எடைகளை ஒரு OpenRAIL உரிமத்தின் கீழ் நாங்கள் கிடைக்கச் செய்கிறோம், மேலும் மூலக் குறியீடு தரவின் மென்பொருள் பாரம்பரிய நிரந்தர அடையாளங்காட்டிகளை (SWHIDs) வெளியிடுவதன் மூலம் பயிற்சித் தரவு தொடர்பான முழுமையான வெளிப்படைத்தன்மையை உறுதி செய்கிறோம்.

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

அனைத்து வேலைகளையும் காண்க

சமீபத்தியது

மேலும் முடிவுகள்

ஸ்டார்கோடர் 2 மற்றும் தி ஸ்டேக் v2: அடுத்த தலைமுறை

Author

Venue

Abstract

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

ஸ்டார்கோடர் 2 மற்றும் தி ஸ்டேக் v2: அடுத்த தலைமுறை

Author

Venue

Abstract

Related Publications

கியூப் பார்ட்: ஒரு திறந்த-சொற்களஞ்சிய, பகுதி-கட்டுப்பாடக்கூடிய 3D ஜெனரேட்டர்

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

பட்டியல்-உள்ளூர் LLM: பரிந்துரைக்காகக் குறைந்த பின்னிப்பிணைவுடன் பேசும் ஐட்டம்-ID வட்டார வழக்கு

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்