ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content
Artificial Intelligence

శాంటాకోడర్: నక్షత్రాలను చేరుకోవద్దు!

Author

లౌబ్నా బెన్ అల్లాల్, రేమండ్ లి, డెనిస్ కోసెట్‌కోవ్, చెంగ్‌హావో మౌ, క్రిస్టోఫర్ అకికి, కార్లోస్ మునోజ్ ఫెర్రాండిస్, నిక్లాస్ మున్నిఘోఫ్, మయాంక్ మిశ్రా, అలెక్స్ గు, మనాన్ దే, లోకేష్ కుమార్ ఉమాపతి, కరోలిన్ జేన్ ఆండర్సన్, యాంగ్‌టియాన్ జి, జోయెల్ లామీ పోరియర్, హేలీ స్కోల్‌క్‌లాఫ్, సెర్గే ట్రోషిన్, డిమిట్రీ అబుల్ఖానోవ్, మాన్యుయెల్ రోమెరో, మైఖేల్ లాపర్ట్, ఫ్రాన్సెస్కో డి టోనీ, బెర్నార్డో గార్సియా డెల్ రియో, క్వియాన్ ల్యూ, షామిక్ బోస్, ఉర్వశి భట్టాచార్య, టెర్రీ యుయూ జువో, ఇయాన్ యు, పాలో విల్లెగాస్, మార్కో జోకా, సౌరబ్ మంగ్రుల్కర్, డేవిడ్ లాన్స్కీ, హూ గుయెన్, దానిష్ కాంట్రాక్టర్, లూయిస్ విల్లా, జియా లి, జ్మిత్రి బాహ్దానావ్, యాసిన్ జెర్నిటే, సీన్ హ్యూజెస్, డేనియల్ ఫ్రీడ్, అర్జున్ గుహ, హార్మ్ డి వ్రీస్, లెయాండ్రో వాన్ వెర్రా

Venue

ఐసిఎల్‌ఆర్ డీప్ లెర్నింగ్ ఫర్ కోడ్ వర్క్‌షాప్ 2023

Abstract

బిగ్‌కోడ్ ప్రాజెక్ట్ అనేది కోడ్ కోసం పెద్ద భాషా నమూనాల బాధ్యతాయుతమైన అభివృద్ధిపై పనిచేస్తున్న ఒక బహిరంగ-శాస్త్రీయ సహకారం. ఈ టెక్ నివేదిక డిసెంబర్ 2022 వరకు ఈ సహకారం సాధించిన పురోగతిని వివరిస్తుంది, వ్యక్తిగతంగా గుర్తించదగిన సమాచారం (PII) ఎరైడేక్షన్ పైప్‌లైన్ యొక్క ప్రస్తుత స్థితిని, మోడల్ ఆర్కిటెక్చర్‌ను డీ-రిస్క్ చేయడానికి నిర్వహించిన ప్రయోగాలను, మరియు శిక్షణా డేటా కోసం మెరుగైన ప్రీప్రాసెసింగ్ పద్ధతులను పరిశోధించే ప్రయోగాలను వివరిస్తుంది. మేము 'ది స్టాక్' యొక్క జావా, జావాస్క్రిప్ట్, మరియు పైథాన్ సబ్‌సెట్‌లపై 1.1B పారామీటర్ మోడల్‌లను శిక్షణ ఇచ్చి, వాటిని MultiPL-E టెక్స్ట్-టు-కోడ్ బెంచ్‌మార్క్‌పై మూల్యాంకనం చేస్తాము. దాదాపు నకలు అయిన వాటిని మరింత తీవ్రంగా ఫిల్టర్ చేయడం ద్వారా పనితీరును మరింత మెరుగుపరచవచ్చని మేము కనుగొన్నాము మరియు ఆశ్చర్యకరంగా, 5+ గిట్‌హబ్ స్టార్‌లు ఉన్న రిపోజిటరీల నుండి ఫైల్‌లను ఎంచుకోవడం పనితీరును గణనీయంగా క్షీణింపజేస్తుందని కూడా తెలుసుకున్నాము. మా ఉత్తమ మోడల్, గణనీయంగా చిన్నది అయినప్పటికీ, MultiPL-E యొక్క జావా, జావాస్క్రిప్ట్, మరియు పైథాన్ భాగాలలో ఎడమ నుండి కుడికి జనరేషన్ మరియు ఇన్‌ఫిల్లింగ్ రెండింటిలోనూ మునుపటి ఓపెన్-సోర్స్ బహుభాషా కోడ్ జనరేషన్ మోడల్‌లను (InCoder-6.7B మరియు CodeGen-Multi-2.7B) అధిగమించింది. అన్ని మోడల్‌లు ఈ https URL వద్ద OpenRAIL లైసెన్స్ కింద విడుదల చేయబడ్డాయి.