मल्टीपीएल-ई: न्यूरल कोड जनरेशन के बेंचमार्किंग के लिए एक स्केलेबल और पॉलीग्लॉट दृष्टिकोण
Author
Venue
आईईईई ट्रांजैक्शंस ऑन सॉफ्टवेयर इंजीनियरिंग (TSE) 2023
Abstract
बड़े भाषा मॉडल प्राकृतिक भाषा और प्रोग्रामिंग भाषा दोनों का पाठ उत्पन्न करने की क्षमता प्रदर्शित कर चुके हैं। ऐसे मॉडल बहु-भाषा कोड जेनरेशन की संभावना खोलते हैं: क्या कोड जेनरेशन मॉडल एक भाषा से दूसरी भाषा में ज्ञान का सामान्यीकरण कर सकते हैं? यद्यपि समकालीन कोड जेनरेशन मॉडल अर्थपूर्ण रूप से सही पाइथन कोड उत्पन्न कर सकते हैं, अन्य भाषाओं के साथ उनकी क्षमताओं के बारे में बहुत कम ज्ञात है। हम MultiPL-E का प्रस्ताव करते हैं, जो यूनिट टेस्ट-संचालित कोड जेनरेशन बेंचमार्क को नई भाषाओं में अनुवादित करने के लिए एक प्रणाली है। हम MultiPL-E का उपयोग करके दो लोकप्रिय पाइथन कोड जनरेशन बेंचमार्क का 18 अतिरिक्त प्रोग्रामिंग भाषाओं में अनुवाद करके पहला बड़े पैमाने पर बहुभाषी कोड जनरेशन बेंचमार्क बनाते हैं।
हम HumanEval बेंचमार्क और MBPP बेंचमार्क को 18 भाषाओं में विस्तारित करने के लिए MultiPL-E का उपयोग करते हैं, जो विभिन्न प्रोग्रामिंग प्रतिमानों और लोकप्रियता की एक श्रृंखला को शामिल करती हैं। इन नए समानांतर बेंचमार्क का उपयोग करके, हम तीन अत्याधुनिक कोड जनरेशन मॉडल: Codex, CodeGen, और InCoder के बहु-भाषा प्रदर्शन का मूल्यांकन करते हैं। हम पाते हैं कि Codex कई अन्य भाषाओं के लिए पाइथन पर अपने प्रदर्शन से मेल खाता है या उससे भी बेहतर प्रदर्शन करता है। MultiPL-E में प्रतिनिधित्व की गई प्रोग्रामिंग भाषाओं की श्रृंखला हमें मॉडल के प्रदर्शन पर भाषा की आवृत्ति और भाषा की विशेषताओं के प्रभाव का पता लगाने की अनुमति देती है। अंत में, नई प्रोग्रामिंग भाषाओं में कोड जनरेशन बेंचमार्क को संकलित करने की MultiPL-E की यह पद्धति स्केलेबल और विस्तार योग्य दोनों है, जिससे नए मॉडलों, बेंचमार्क और भाषाओं का मूल्यांकन करना सरल हो जाता है।
