శాంటాకోడర్: నక్షత్రాలను చేరుకోవద్దు!
Author
Venue
ఐసిఎల్ఆర్ డీప్ లెర్నింగ్ ఫర్ కోడ్ వర్క్షాప్ 2023
Abstract
బిగ్కోడ్ ప్రాజెక్ట్ అనేది కోడ్ కోసం పెద్ద భాషా నమూనాల బాధ్యతాయుతమైన అభివృద్ధిపై పనిచేస్తున్న ఒక బహిరంగ-శాస్త్రీయ సహకారం. ఈ టెక్ నివేదిక డిసెంబర్ 2022 వరకు ఈ సహకారం సాధించిన పురోగతిని వివరిస్తుంది, వ్యక్తిగతంగా గుర్తించదగిన సమాచారం (PII) ఎరైడేక్షన్ పైప్లైన్ యొక్క ప్రస్తుత స్థితిని, మోడల్ ఆర్కిటెక్చర్ను డీ-రిస్క్ చేయడానికి నిర్వహించిన ప్రయోగాలను, మరియు శిక్షణా డేటా కోసం మెరుగైన ప్రీప్రాసెసింగ్ పద్ధతులను పరిశోధించే ప్రయోగాలను వివరిస్తుంది. మేము 'ది స్టాక్' యొక్క జావా, జావాస్క్రిప్ట్, మరియు పైథాన్ సబ్సెట్లపై 1.1B పారామీటర్ మోడల్లను శిక్షణ ఇచ్చి, వాటిని MultiPL-E టెక్స్ట్-టు-కోడ్ బెంచ్మార్క్పై మూల్యాంకనం చేస్తాము. దాదాపు నకలు అయిన వాటిని మరింత తీవ్రంగా ఫిల్టర్ చేయడం ద్వారా పనితీరును మరింత మెరుగుపరచవచ్చని మేము కనుగొన్నాము మరియు ఆశ్చర్యకరంగా, 5+ గిట్హబ్ స్టార్లు ఉన్న రిపోజిటరీల నుండి ఫైల్లను ఎంచుకోవడం పనితీరును గణనీయంగా క్షీణింపజేస్తుందని కూడా తెలుసుకున్నాము. మా ఉత్తమ మోడల్, గణనీయంగా చిన్నది అయినప్పటికీ, MultiPL-E యొక్క జావా, జావాస్క్రిప్ట్, మరియు పైథాన్ భాగాలలో ఎడమ నుండి కుడికి జనరేషన్ మరియు ఇన్ఫిల్లింగ్ రెండింటిలోనూ మునుపటి ఓపెన్-సోర్స్ బహుభాషా కోడ్ జనరేషన్ మోడల్లను (InCoder-6.7B మరియు CodeGen-Multi-2.7B) అధిగమించింది. అన్ని మోడల్లు ఈ https URL వద్ద OpenRAIL లైసెన్స్ కింద విడుదల చేయబడ్డాయి.
