Author
అర్జున్ గుహ (రాబ్లాక్స్ + నార్త్ఈస్టర్న్ యూనివర్సిటీ), ఆంటన్ లోజ్కోవ్ (హగ్గింగ్ ఫేస్), రేమండ్ లి (సర్వీస్ నౌ), లౌబ్నా బెన్ అల్లాల్ (హగ్గింగ్ ఫేస్), ఫెడెరికో కాసనో (నార్త్ఈస్టర్న్ యూనివర్సిటీ), జోయెల్ లామీ-పోరియర్ (సర్వీస్నౌ), నౌమాన్ టాజీ (హగ్గింగ్ఫేస్), ఆవో టాంగ్ (ఎన్విడియా), డిమిట్రో పిఖ్తార్ (ఎన్విడియా), జియావెయి లియు (ఇల్లినాయిస్ విశ్వవిద్యాలయం అర్బానా-ఛాంపెయిన్), యూషియాంగ్ వీ (ఇల్లినాయిస్ విశ్వవిద్యాలయం అర్బానా-ఛాంపెయిన్), టియాన్యాంగ్ లియు (యూసీ శాన్ డియాగో), మాక్స్ టియన్ (సర్వీస్నౌ), డెనిస్ కోసెట్కోవ్ (సర్వీస్నౌ), ఆర్థర్ జుకర్ (హగ్గింగ్ ఫేస్), యంగ్ బెల్కాడా (హగ్గింగ్ ఫేస్), జిజాన్ వాంగ్ (స్వతంత్ర), క్వియాన్ లియు (సీ ఏఐ ల్యాబ్), డిమిట్రీ అబుల్ఖానోవ్ (స్వతంత్ర), ఇంద్రనీల్ పాల్ (టెక్నికల్ యూనివర్శిటీ ఆఫ్ డార్మ్స్టాడ్ట్), జువాంగ్ లి (మోనాష్ విశ్వవిద్యాలయం), వెన్-డింగ్ లి (కార్నెల్ విశ్వవిద్యాలయం), మెగాన్ రిస్డాల్ (కాగ్ల్), జియా లి (స్వతంత్ర), జియాన్ జు (బ్రిటిష్ కొలంబియా విశ్వవిద్యాలయం), టెర్రీ యుయె జుఓ (మోనాష్ విశ్వవిద్యాలయం + CSIRO యొక్క Data61), ఎవ్జెనీ జెల్టోనోజ్స్కీ (టెక్నియన్ – ఇజ్రాయెల్ ఇన్స్టిట్యూట్ ఆఫ్ టెక్నాలజీ), నీ ఓసే ఓసే డాడే (మజుమా), వెన్హావో యు (నోట్రే డేమ్ విశ్వవిద్యాలయం), లూకాస్ క్రాస్ (స్వతంత్ర), నమన్ జైన్ (యూసీ బర్కిలీ), యీక్సువాన్ సు (కోహెర్), జువాన్లీ హె (యూనివర్సిటీ కాలేజ్ లండన్), మనాన్ డే (సేల్స్ఫోర్స్), ఎడోర్డో అబాటి (స్వతంత్ర), యెకున్ చై (బైడు), నిక్లాస్ మున్నిఘోఫ్ (కాంటెక్స్చువల్ AI), జియాంగ్రు టాంగ్ (యేల్ విశ్వవిద్యాలయం), ముహ్తషమ్ ఒబ్లుకులోవ్ (టెక్నికల్ యూనివర్సిటీ ఆఫ్ మ్యూనిచ్), క్రిస్టోఫర్ అకికి (లైప్జిగ్ విశ్వవిద్యాలయం + ScaDS.AI), మార్క్ మారోన్ (జాన్స్ హాప్కిన్స్ విశ్వవిద్యాలయం), చెంగ్హావో మౌ (స్వతంత్ర), మయాంక్ మిశ్రా (IBM రీసెర్చ్), అలెక్స్ గు (MIT), బిన్యువాన్ హుయ్ (స్వతంత్ర), ట్రి డో (ప్రిన్స్టన్ విశ్వవిద్యాలయం), ఆర్మెల్ జెబాజ్ (హగ్గింగ్ఫేస్), ఒలివియర్ డెహేన్ (హగ్గింగ్ఫేస్), నికోలస్ పాట్రీ (హగ్గింగ్ ఫేస్), కాన్వెన్ జు (యూసీ శాన్ డియాగో), జూలియన్ మెక్అౌలీ (యూసీ శాన్ డియాగో), హాన్ హు (మోనాష్ విశ్వవిద్యాలయం), టోర్స్టెన్ షోలాక్ (సర్వీస్నౌ), సెబాస్టియన్ పాకెట్ (సర్వీస్నౌ), జెన్నిఫర్ రాబిన్సన్ (సర్వీస్నౌ), కరోలిన్ జేన్ ఆండర్సన్ (వెల్లెస్లీ కాలేజ్), నికోలస్ చాపాడోస్ (సర్వీస్నౌ), మోస్టాఫా పట్వార్ (ఎన్విడియా), నిమా తాజ్బాఖ్ష్ (ఎన్విడియా), యాసిన్ జెర్నిట్ (హగ్గింగ్ ఫేస్), కార్లోస్ మునోజ్ ఫెర్రాండిస్ (హగ్గింగ్ ఫేస్), లింగ్మింగ్ జాంగ్ (ఇల్లినాయిస్ యూనివర్శిటీ అర్బానా-ఛాంపెయిన్), సీన్ హ్యూజెస్ (సర్వీస్ నౌ), థామస్ వోల్ఫ్ (హగ్గింగ్ ఫేస్), లెయాండ్రో వాన్ వెర్రా (హగ్గింగ్ ఫేస్), హార్మ్ డి వ్రీస్ (సర్వీస్నౌ)
Abstract
కోడ్ కోసం లార్జ్ లాంగ్వేజ్ మోడల్స్ (కోడ్ LLMs) యొక్క బాధ్యతాయుతమైన అభివృద్ధిపై దృష్టి సారించిన ఓపెన్-శాస్త్రీయ సహకారమైన బిగ్కోడ్ ప్రాజెక్ట్, స్టార్కోడర్2ను పరిచయం చేస్తోంది. సాఫ్ట్వేర్ హెరిటేజ్ (SWH) భాగస్వామ్యంతో, మేము వారి సోర్స్ కోడ్ ఆర్కైవ్ యొక్క డిజిటల్ కామన్స్ పైన ది స్టాక్ v2ను నిర్మిస్తున్నాము. 619 ప్రోగ్రామింగ్ భాషలను కవర్ చేసే SWH రిపోజిటరీలతో పాటు, మేము గిట్హబ్ పుల్ రిక్వెస్ట్లు, కాగ్ల్ నోట్బుక్లు మరియు కోడ్ డాక్యుమెంటేషన్ వంటి ఇతర అధిక-నాణ్యత డేటా మూలాలను జాగ్రత్తగా ఎంచుకుంటాము. దీని ఫలితంగా మొదటి స్టార్కోడర్ డేటాసెట్ కంటే 4 రెట్లు పెద్ద శిక్షణా సెట్ తయారవుతుంది. మేము 3.3 నుండి 4.3 ట్రిలియన్ టోకెన్లపై 3B, 7B, మరియు 15B పారామితులతో StarCoder2 మోడల్లను శిక్షణ ఇచ్చి, వాటిని కోడ్ LLM బెంచ్మార్క్ల యొక్క సమగ్రమైన సెట్పై క్షుణ్ణంగా మూల్యాంకనం చేస్తాము. మా చిన్న మోడల్, StarCoder2-3B, చాలా బెంచ్మార్క్లలో ఇదే పరిమాణంలో ఉన్న ఇతర కోడ్ LLMలను అధిగమించిందని, అలాగే StarCoderBase-15Bను కూడా అధిగమించిందని మేము కనుగొన్నాము. మా పెద్ద మోడల్, StarCoder2-15B, పోల్చదగిన పరిమాణంలో ఉన్న ఇతర మోడల్లను గణనీయంగా అధిగమించింది. అదనంగా, ఇది దాని పరిమాణం కంటే రెట్టింపు కంటే ఎక్కువ ఉన్న మోడల్ అయిన CodeLlama-34Bతో సమానంగా లేదా దానిని అధిగమిస్తుంది. అధిక-వనరుల భాషల కోసం కోడ్ పూర్తి చేయడంలో DeepSeekCoder-33B అత్యుత్తమ పనితీరు కనబరిచే మోడల్ అయినప్పటికీ, గణితం మరియు కోడ్ రీజనింగ్ బెంచ్మార్క్లలో, అలాగే అనేక తక్కువ-వనరుల భాషలలో StarCoder2-15B దానిని అధిగమిస్తుందని మేము కనుగొన్నాము. మేము మోడల్ వెయిట్స్ను ఓపెన్రైల్ (OpenRAIL) లైసెన్స్ కింద అందుబాటులో ఉంచుతాము మరియు సోర్స్ కోడ్ డేటా యొక్క సాఫ్ట్వేర్ హెరిటేజ్ పర్సిస్టెంట్ ఐడెంటిఫైయర్లను (SWHIDs) విడుదల చేయడం ద్వారా శిక్షణా డేటాకు సంబంధించి పూర్తి పారదర్శకతను నిర్ధారిస్తాము.