MultiPL-E: نهج قابل للتطوير ومتعدد اللغات لتقييم أداء توليد الكود العصبي
Author
Venue
مجلة IEEE Transactions on Software Engineering (TSE) 2023
Abstract
أثبتت نماذج اللغات الكبيرة قدرتها على إنشاء نصوص باللغة الطبيعية ولغة البرمجة على حد سواء. تفتح هذه النماذج الباب أمام إمكانية إنشاء كود متعدد اللغات: هل يمكن لنماذج إنشاء الكود تعميم المعرفة من لغة إلى أخرى؟ على الرغم من أن نماذج إنشاء الكود المعاصرة قادرة على إنشاء كود Python صحيح من الناحية الدلالية، إلا أن القليل معروف عن قدراتها مع اللغات الأخرى. نقترح MultiPL-E، وهو نظام لترجمة معايير إنشاء الكود القائمة على الاختبارات الوحدوية إلى لغات جديدة. نقوم بإنشاء أول معيار لتوليد الكود متعدد اللغات على نطاق واسع باستخدام MultiPL-E لترجمة معيارين شائعين لتوليد كود Python إلى 18 لغة برمجة إضافية.
نستخدم MultiPL-E لتوسيع معيار HumanEval ومعيار MBPP ليشمل 18 لغة تغطي مجموعة متنوعة من نماذج البرمجة ومستويات الشعبية. باستخدام هذه المعايير المتوازية الجديدة، نقوم بتقييم الأداء متعدد اللغات لثلاثة نماذج حديثة لتوليد الكود: Codex وCodeGen وInCoder. وجدنا أن Codex يضاهي أو حتى يتفوق على أدائه في لغة Python في عدة لغات أخرى. يتيح لنا نطاق لغات البرمجة الممثلة في MultiPL-E استكشاف تأثير تكرار اللغة وميزات اللغة على أداء النموذج. أخيرًا، فإن نهج MultiPL-E لتجميع معايير أداء توليد الكود إلى لغات برمجة جديدة قابل للتوسع والتطوير، مما يجعل تقييم النماذج والمعايير واللغات الجديدة أمرًا سهلاً.
