ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

స్టార్‌కోడర్ 2 మరియు ది స్టాక్ v2: తదుపరి తరం

View Publication

Author

అర్జున్ గుహ (రాబ్లాక్స్ + నార్త్ఈస్టర్న్ యూనివర్సిటీ), ఆంటన్ లోజ్కోవ్ (హగ్గింగ్ ఫేస్), రేమండ్ లి (సర్వీస్ నౌ), లౌబ్నా బెన్ అల్లాల్ (హగ్గింగ్ ఫేస్), ఫెడెరికో కాసనో (నార్త్ఈస్టర్న్ యూనివర్సిటీ), జోయెల్ లామీ-పోరియర్ (సర్వీస్‌నౌ), నౌమాన్ టాజీ (హగ్గింగ్‌ఫేస్), ఆవో టాంగ్ (ఎన్విడియా), డిమిట్రో పిఖ్తార్ (ఎన్విడియా), జియావెయి లియు (ఇల్లినాయిస్ విశ్వవిద్యాలయం అర్బానా-ఛాంపెయిన్), యూషియాంగ్ వీ (ఇల్లినాయిస్ విశ్వవిద్యాలయం అర్బానా-ఛాంపెయిన్), టియాన్యాంగ్ లియు (యూసీ శాన్ డియాగో), మాక్స్ టియన్ (సర్వీస్‌నౌ), డెనిస్ కోసెట్‌కోవ్ (సర్వీస్‌నౌ), ఆర్థర్ జుకర్ (హగ్గింగ్ ఫేస్), యంగ్ బెల్కాడా (హగ్గింగ్ ఫేస్), జిజాన్ వాంగ్ (స్వతంత్ర), క్వియాన్ లియు (సీ ఏఐ ల్యాబ్), డిమిట్రీ అబుల్ఖానోవ్ (స్వతంత్ర), ఇంద్రనీల్ పాల్ (టెక్నికల్ యూనివర్శిటీ ఆఫ్ డార్మ్స్టాడ్ట్), జువాంగ్ లి (మోనాష్ విశ్వవిద్యాలయం), వెన్-డింగ్ లి (కార్నెల్ విశ్వవిద్యాలయం), మెగాన్ రిస్డాల్ (కాగ్ల్), జియా లి (స్వతంత్ర), జియాన్ జు (బ్రిటిష్ కొలంబియా విశ్వవిద్యాలయం), టెర్రీ యుయె జుఓ (మోనాష్ విశ్వవిద్యాలయం + CSIRO యొక్క Data61), ఎవ్జెనీ జెల్టోనోజ్‌స్కీ (టెక్నియన్ – ఇజ్రాయెల్ ఇన్‌స్టిట్యూట్ ఆఫ్ టెక్నాలజీ), నీ ఓసే ఓసే డాడే (మజుమా), వెన్‌హావో యు (నోట్రే డేమ్ విశ్వవిద్యాలయం), లూకాస్ క్రాస్ (స్వతంత్ర), నమన్ జైన్ (యూసీ బర్కిలీ), యీక్సువాన్ సు (కోహెర్), జువాన్లీ హె (యూనివర్సిటీ కాలేజ్ లండన్), మనాన్ డే (సేల్స్‌ఫోర్స్), ఎడోర్డో అబాటి (స్వతంత్ర), యెకున్ చై (బైడు), నిక్లాస్ మున్నిఘోఫ్ (కాంటెక్స్చువల్ AI), జియాంగ్రు టాంగ్ (యేల్ విశ్వవిద్యాలయం), ముహ్తషమ్ ఒబ్లుకులోవ్ (టెక్నికల్ యూనివర్సిటీ ఆఫ్ మ్యూనిచ్), క్రిస్టోఫర్ అకికి (లైప్జిగ్ విశ్వవిద్యాలయం + ScaDS.AI), మార్క్ మారోన్ (జాన్స్ హాప్కిన్స్ విశ్వవిద్యాలయం), చెంగ్‌హావో మౌ (స్వతంత్ర), మయాంక్ మిశ్రా (IBM రీసెర్చ్), అలెక్స్ గు (MIT), బిన్యువాన్ హుయ్ (స్వతంత్ర), ట్రి డో (ప్రిన్స్‌టన్ విశ్వవిద్యాలయం), ఆర్మెల్ జెబాజ్ (హగ్గింగ్‌ఫేస్), ఒలివియర్ డెహేన్ (హగ్గింగ్‌ఫేస్), నికోలస్ పాట్రీ (హగ్గింగ్ ఫేస్), కాన్వెన్ జు (యూసీ శాన్ డియాగో), జూలియన్ మెక్‌అౌలీ (యూసీ శాన్ డియాగో), హాన్ హు (మోనాష్ విశ్వవిద్యాలయం), టోర్స్టెన్ షోలాక్ (సర్వీస్‌నౌ), సెబాస్టియన్ పాకెట్ (సర్వీస్‌నౌ), జెన్నిఫర్ రాబిన్సన్ (సర్వీస్‌నౌ), కరోలిన్ జేన్ ఆండర్సన్ (వెల్లెస్లీ కాలేజ్), నికోలస్ చాపాడోస్ (సర్వీస్‌నౌ), మోస్టాఫా పట్వార్ (ఎన్విడియా), నిమా తాజ్బాఖ్ష్ (ఎన్విడియా), యాసిన్ జెర్నిట్ (హగ్గింగ్ ఫేస్), కార్లోస్ మునోజ్ ఫెర్రాండిస్ (హగ్గింగ్ ఫేస్), లింగ్మింగ్ జాంగ్ (ఇల్లినాయిస్ యూనివర్శిటీ అర్బానా-ఛాంపెయిన్), సీన్ హ్యూజెస్ (సర్వీస్ నౌ), థామస్ వోల్ఫ్ (హగ్గింగ్ ఫేస్), లెయాండ్రో వాన్ వెర్రా (హగ్గింగ్ ఫేస్), హార్మ్ డి వ్రీస్ (సర్వీస్‌నౌ)

Venue

Abstract

కోడ్ కోసం లార్జ్ లాంగ్వేజ్ మోడల్స్ (కోడ్ LLMs) యొక్క బాధ్యతాయుతమైన అభివృద్ధిపై దృష్టి సారించిన ఓపెన్-శాస్త్రీయ సహకారమైన బిగ్‌కోడ్ ప్రాజెక్ట్, స్టార్‌కోడర్2ను పరిచయం చేస్తోంది. సాఫ్ట్‌వేర్ హెరిటేజ్ (SWH) భాగస్వామ్యంతో, మేము వారి సోర్స్ కోడ్ ఆర్కైవ్ యొక్క డిజిటల్ కామన్స్ పైన ది స్టాక్ v2ను నిర్మిస్తున్నాము. 619 ప్రోగ్రామింగ్ భాషలను కవర్ చేసే SWH రిపోజిటరీలతో పాటు, మేము గిట్‌హబ్ పుల్ రిక్వెస్ట్‌లు, కాగ్ల్ నోట్‌బుక్‌లు మరియు కోడ్ డాక్యుమెంటేషన్ వంటి ఇతర అధిక-నాణ్యత డేటా మూలాలను జాగ్రత్తగా ఎంచుకుంటాము. దీని ఫలితంగా మొదటి స్టార్‌కోడర్ డేటాసెట్‌ కంటే 4 రెట్లు పెద్ద శిక్షణా సెట్ తయారవుతుంది. మేము 3.3 నుండి 4.3 ట్రిలియన్ టోకెన్‌లపై 3B, 7B, మరియు 15B పారామితులతో StarCoder2 మోడల్‌లను శిక్షణ ఇచ్చి, వాటిని కోడ్ LLM బెంచ్‌మార్క్‌ల యొక్క సమగ్రమైన సెట్‌పై క్షుణ్ణంగా మూల్యాంకనం చేస్తాము. మా చిన్న మోడల్, StarCoder2-3B, చాలా బెంచ్‌మార్క్‌లలో ఇదే పరిమాణంలో ఉన్న ఇతర కోడ్ LLMలను అధిగమించిందని, అలాగే StarCoderBase-15Bను కూడా అధిగమించిందని మేము కనుగొన్నాము. మా పెద్ద మోడల్, StarCoder2-15B, పోల్చదగిన పరిమాణంలో ఉన్న ఇతర మోడల్‌లను గణనీయంగా అధిగమించింది. అదనంగా, ఇది దాని పరిమాణం కంటే రెట్టింపు కంటే ఎక్కువ ఉన్న మోడల్ అయిన CodeLlama-34Bతో సమానంగా లేదా దానిని అధిగమిస్తుంది. అధిక-వనరుల భాషల కోసం కోడ్ పూర్తి చేయడంలో DeepSeekCoder-33B అత్యుత్తమ పనితీరు కనబరిచే మోడల్ అయినప్పటికీ, గణితం మరియు కోడ్ రీజనింగ్ బెంచ్‌మార్క్‌లలో, అలాగే అనేక తక్కువ-వనరుల భాషలలో StarCoder2-15B దానిని అధిగమిస్తుందని మేము కనుగొన్నాము. మేము మోడల్ వెయిట్స్‌ను ఓపెన్‌రైల్ (OpenRAIL) లైసెన్స్ కింద అందుబాటులో ఉంచుతాము మరియు సోర్స్ కోడ్ డేటా యొక్క సాఫ్ట్‌వేర్ హెరిటేజ్ పర్సిస్టెంట్ ఐడెంటిఫైయర్‌లను (SWHIDs) విడుదల చేయడం ద్వారా శిక్షణా డేటాకు సంబంధించి పూర్తి పారదర్శకతను నిర్ధారిస్తాము.