MultiPL-E: न्यूरल कोड जनरेशनच्या बेंचमार्किंगसाठी एक स्केलेबल आणि बहुभाषिक दृष्टिकोन
Author
Venue
IEEE सॉफ्टवेअर इंजिनिअरिंग ट्रान्झॅक्शन्स (TSE) 2023
Abstract
मोठ्या भाषा मॉडेल्सनी नैसर्गिक भाषा आणि प्रोग्रामिंग भाषा या दोन्ही प्रकारचा मजकूर तयार करण्याची क्षमता दाखविली आहे. अशा मॉडेल्समुळे बहुभाषिक कोड निर्मितीची शक्यता निर्माण होते: कोड निर्मिती मॉडेल्स एका भाषेतील ज्ञान दुसऱ्या भाषेत सामान्यीकरण करू शकतील का? जरी समकालीन कोड निर्मिती मॉडेल्स अर्थदृष्ट्या बरोबर पायथन कोड तयार करू शकतात, तरी इतर भाषांविषयी त्यांची क्षमता फारशी ज्ञात नाही. आम्ही MultiPL-E या प्रणालीचा प्रस्ताव करतो, जी युनिट टेस्ट-चालित कोड निर्मिती बेंचमार्क्सना नवीन भाषांमध्ये अनुवादित करते. आम्ही दोन लोकप्रिय पायथन कोड जनरेशन बेंचमार्क MultiPL-E वापरून 18 अतिरिक्त प्रोग्रामिंग भाषांमध्ये अनुवाद करून पहिले मोठ्या प्रमाणावर बहुभाषिक कोड जनरेशन बेंचमार्क तयार करतो.
आम्ही HumanEval बेंचमार्क आणि MBPP बेंचमार्क यांना विविध प्रोग्रामिंग पॅराडाइम्स आणि लोकप्रियता असलेल्या 18 भाषांमध्ये विस्तारित करण्यासाठी MultiPL-E वापरतो. या नवीन समांतर बेंचमार्कचा वापर करून, आम्ही तीन अत्याधुनिक कोड जनरेशन मॉडेल्स: Codex, CodeGen, आणि InCoder यांची बहुभाषिक कार्यक्षमता मूल्यांकन करतो. आम्हाला आढळले की Codex अनेक इतर भाषांसाठी Python वरील त्याच्या कार्यक्षमतेशी जुळते किंवा ती ओलांडते. MultiPL-E मध्ये समाविष्ट प्रोग्रामिंग भाषांची श्रेणी आम्हाला मॉडेलच्या कामगिरीवर भाषा वारंवारता आणि भाषा वैशिष्ट्यांचा होणारा परिणाम तपासण्याची परवानगी देते. शेवटी, नवीन प्रोग्रामिंग भाषांमध्ये कोड जनरेशन बेंचमार्क संकलित करण्याची MultiPL-E पद्धत ही दोन्ही स्केलेबल आणि विस्तारक्षम आहे, ज्यामुळे नवीन मॉडेल्स, बेंचमार्क आणि भाषांचे मूल्यांकन करणे सोपे होते.
