Author
అర్జున్ గుహ (రాబ్లాక్స్ + నార్త్ఈస్టర్న్ యూనివర్సిటీ), రేమండ్ లి (సర్వీస్నౌ), లౌబ్నా బెన్ అల్లాల్ (హగ్గింగ్ఫేస్), యాంగ్టియాన్ జి (నార్త్ఈస్టర్న్ యూనివర్సిటీ), నిక్లాస్ మున్నిఘోఫ్ (హగ్గింగ్ఫేస్), డెనిస్ కోసెట్కోవ్ (సర్వీస్నౌ), చెంగ్హావో మౌ (స్వతంత్ర), మార్క్ మారోన్ (జాన్స్ హాప్కిన్స్ యూనివర్సిటీ), క్రిస్టోఫర్ అకికి (లీప్జిగ్ విశ్వవిద్యాలయం + ScaDS.AI), జియా లి (స్వతంత్ర), జెన్నీ చిమ్ (క్వీన్ మేరీ యూనివర్శిటీ ఆఫ్ లండన్), క్వియాన్ ల్యూ (సీ AI ల్యాబ్), ఎవ్జెనీ జెల్టోనోజ్స్కీ (టెక్నియన్ – ఇజ్రాయెల్ ఇన్స్టిట్యూట్ ఆఫ్ టెక్నాలజీ), టెర్రీ యుయూ జువో (మోనాష్ విశ్వవిద్యాలయం + CSIRO యొక్క డేటా61), థామస్ వాంగ్ (హగ్గింగ్ ఫేస్), ఒలివియర్ డిహేన్ (హగ్గింగ్ ఫేస్), మిషిగ్ దవాడోర్జ్ (హగ్గింగ్ ఫేస్), జోయెల్ లామీ-పోరియర్ (సర్వీస్నౌ), జోవావ్ మోంటెయిరో (సర్వీస్నౌ), ఒలే ష్లియాజ్కో (సర్వీస్నౌ), నికోలస్ గోంటీయర్ (సర్వీస్నౌ), నికోలస్ మీడ్ (మిలా + మెక్గిల్ విశ్వవిద్యాలయం), ఆర్మెల్ జెబాజే (హగ్గింగ్ఫేస్), మింగ్-హో యీ (నార్త్ఈస్టర్న్ విశ్వవిద్యాలయం), లోకేష్ కుమార్ ఉమాపతి (సామా AI రీసెర్చ్ ల్యాబ్), జియాన్ జు (బ్రిటిష్ కొలంబియా విశ్వవిద్యాలయం), బెంజమిన్ లిప్కిన్ (MIT), ముహ్తశం ఒబ్లుకులోవ్ (టెక్నికల్ యూనివర్శిటీ ఆఫ్ మ్యూనిచ్), జిర్యువో వాంగ్ (కార్నెగీ మెలన్ విశ్వవిద్యాలయం), రుద్ర మూర్తి (IBM రీసెర్చ్), జాసన్ స్టిల్లర్మాన్ (వర్మాంట్ విశ్వవిద్యాలయం), శివ సంకల్ప్ పటేల్ (IBM రీసెర్చ్), డిమిట్రీ అబుల్ఖానోవ్ (స్వతంత్ర), మార్కో జోకా (అన్ఫోల్డ్ఎంఎల్), మనన్ డే (SAP), జిహన్ జాంగ్ (నోట్రే డామ్ విశ్వవిద్యాలయం), నూర్ ఫాహ్మీ (కొలంబియా విశ్వవిద్యాలయం), ఉర్వశి భట్టాచార్య (డిస్కవర్ డాలర్ ప్రైవేట్ లిమిటెడ్), వెన్హావో యు (నోట్రే డామ్ విశ్వవిద్యాలయం), స్వయం సింగ్ (అలహాబాద్ విశ్వవిద్యాలయం), సాషా లూసియోని (హగ్గింగ్ఫేస్), పాలో విల్లెగాస్ (టెలిఫోనికా I+D), మాక్సిమ్ కునాకోవ్ (టోలోకా), ఫెడోర్ జ్హడానోవ్ (టోలోకా), మాన్యువల్ రోమెరో (స్వతంత్ర), టోనీ లీ (స్టాన్ఫోర్డ్ విశ్వవిద్యాలయం), నదావ్ తిమోర్ (వైజ్మాన్ ఇన్స్టిట్యూట్ ఆఫ్ సైన్స్), జెన్నిఫర్ డింగ్ (ది అలన్ ట్యూరింగ్ ఇన్స్టిట్యూట్), క్లైర్ స్క్లెసింజర్ (నార్త్ఈస్టర్న్ విశ్వవిద్యాలయం), హేలీ స్కోల్క్కాఫ్ (ఎలూథర్ AI), జాన్ ఎబర్ట్ (ఫోర్షంగ్జెంట్రమ్ జూలిచ్), ట్రి డావో (స్టాన్ఫోర్డ్ విశ్వవిద్యాలయం), మయंक మిశ్రా (IBM రీసెర్చ్), అలెక్స్ గు (MIT), జెన్నిఫర్ రాబిన్సన్ (సర్వీస్నౌ), కరోలిన్ జేన్ ఆండర్సన్ (వెల్లెస్లీ కాలేజ్), బ్రెండన్ డోలాన్-గవిట్ (NYU), దానిష్ కాంట్రాక్టర్ (స్వతంత్ర), శివ రెడ్డి (సర్వీస్నౌ + మిలా), డానియల్ ఫ్రీడ్ (కార్నెగీ మెలన్ విశ్వవిద్యాలయం), డ్జమిత్రి బాహ్దానావ్ (సర్వీస్నౌ), యాసిన్ జెర్నిట్ (హగ్గింగ్ఫేస్), కార్లోస్ మునోజ్ ఫెర్రాండిస్ (హగ్గింగ్ఫేస్), సీన్ హ్యూస్ (సర్వీస్నౌ), థామస్ వోల్ఫ్ (హగ్గింగ్ఫేస్), లెయాండ్రో వాన్ వెర్రా (హగ్గింగ్ఫేస్), హార్మ్ డి వ్రీస్ (సర్వీస్నౌ)
Venue
ట్రాన్సాక్షన్స్ ఆన్ మెషిన్ లెర్నింగ్ రీసెర్చ్ (TMLR) 2023
Abstract
కోడ్ కోసం లార్జ్ లాంగ్వేజ్ మోడల్స్ (కోడ్ LLMs) యొక్క బాధ్యతాయుతమైన అభివృద్ధిపై పనిచేస్తున్న ఒక ఓపెన్-సైంటిఫిక్ సహకారమైన బిగ్కోడ్ కమ్యూనిటీ, స్టార్కోడర్ మరియు స్టార్కోడర్బేస్ను పరిచయం చేస్తోంది: ఇవి 8K కంటెక్స్ట్ లెంగ్త్, ఇన్ఫిల్లింగ్ సామర్థ్యాలు మరియు మల్టీ-క్వెరీ అటెన్షన్తో వేగవంతమైన లార్జ్-బ్యాచ్ ఇన్ఫరెన్స్ను ప్రారంభించే 15.5B పారామీటర్ మోడల్స్. స్టార్కోడర్బేస్, తనిఖీ సాధనాలు మరియు ఆప్ట్-అవుట్ ప్రక్రియతో అనుమతితో లైసెన్స్ పొందిన గిట్హబ్ రిపోజిటరీల పెద్ద సేకరణ అయిన 'ది స్టాక్' నుండి 1 ట్రిలియన్ టోకెన్లతో శిక్షణ పొందింది. మేము 35 బిలియన్ల పైథాన్ టోకెన్లపై స్టార్కోడర్బేస్ను ఫైన్-ట్యూన్ చేసి, ఫలితంగా స్టార్కోడర్ను సృష్టించాము. మేము ఇప్పటివరకు కోడ్ LLMల యొక్క అత్యంత సమగ్రమైన మూల్యాంకనాన్ని నిర్వహించాము మరియు బహుళ ప్రోగ్రామింగ్ భాషలకు మద్దతు ఇచ్చే ప్రతి ఓపెన్ కోడ్ LLMను StarCoderBase అధిగమిస్తుందని, అలాగే OpenAI code-cushman-001 మోడల్తో సరిపోలుతుందని లేదా దానిని అధిగమిస్తుందని చూపించాము. అంతేకాకుండా, Pythonపై ఫైన్-ట్యూన్ చేయబడిన, HumanEvalలో 40% pass@1 సాధించగల మరియు ఇతర ప్రోగ్రామింగ్ భాషలలో కూడా తన పనితీరును నిలుపుకోగల ప్రతి మోడల్ను StarCoder అధిగమిస్తుంది. సురక్షితమైన ఓపెన్-యాక్సెస్ మోడల్ విడుదల కోసం మేము అనేక ముఖ్యమైన చర్యలు తీసుకున్నాము, వీటిలో మెరుగైన PII రెడక్షన్ పైప్లైన్ మరియు ఒక నూతన అట్రిబ్యూషన్ ట్రేసింగ్ సాధనం ఉన్నాయి. అంతేకాకుండా, స్టార్కోడర్ మోడల్లను ఓపెన్ రెస్పాన్సిబుల్ AI మోడల్ లైసెన్స్ యొక్క మరింత వాణిజ్యపరంగా ఆచరణీయమైన వెర్షన్ కింద బహిరంగంగా అందుబాటులోకి తెచ్చాము.