MultiPL-E: نهج قابل للتطوير ومتعدد اللغات لتقييم أداء توليد الكود العصبي

Share

Author

فيديريكو كاسانو (جامعة نورث إيسترن)، جون جوار (جامعة نورث إيسترن)، دانيال نغوين (مدرسة هانوفر الثانوية)، سيدني نغوين (كلية ويلسلي)، لونا فيبس-كوستين (جامعة نورث إيسترن)، دونالد بينكني (جامعة نورث إيسترن)، مينغ-هو يي (جامعة نورث إيسترن)، يانغتيان زي (جامعة نورث إيسترن)، كارولين جين أندرسون (كلية ويلسلي)، مولي كيو فيلدمان (كلية أوبرلين)، أرجون غوها (Roblox + جامعة نورث إيسترن)، مايكل غرينبرغ (معهد ستيفنز للتكنولوجيا)، أبيناف جانغدا (مايكروسوفت)

Venue

مجلة IEEE Transactions on Software Engineering (TSE) 2023

Abstract

أثبتت نماذج اللغات الكبيرة قدرتها على إنشاء نصوص باللغة الطبيعية ولغة البرمجة على حد سواء. تفتح هذه النماذج الباب أمام إمكانية إنشاء كود متعدد اللغات: هل يمكن لنماذج إنشاء الكود تعميم المعرفة من لغة إلى أخرى؟ على الرغم من أن نماذج إنشاء الكود المعاصرة قادرة على إنشاء كود Python صحيح من الناحية الدلالية، إلا أن القليل معروف عن قدراتها مع اللغات الأخرى. نقترح MultiPL-E، وهو نظام لترجمة معايير إنشاء الكود القائمة على الاختبارات الوحدوية إلى لغات جديدة. نقوم بإنشاء أول معيار لتوليد الكود متعدد اللغات على نطاق واسع باستخدام MultiPL-E لترجمة معيارين شائعين لتوليد كود Python إلى 18 لغة برمجة إضافية.

نستخدم MultiPL-E لتوسيع معيار HumanEval ومعيار MBPP ليشمل 18 لغة تغطي مجموعة متنوعة من نماذج البرمجة ومستويات الشعبية. باستخدام هذه المعايير المتوازية الجديدة، نقوم بتقييم الأداء متعدد اللغات لثلاثة نماذج حديثة لتوليد الكود: Codex وCodeGen وInCoder. وجدنا أن Codex يضاهي أو حتى يتفوق على أدائه في لغة Python في عدة لغات أخرى. يتيح لنا نطاق لغات البرمجة الممثلة في MultiPL-E استكشاف تأثير تكرار اللغة وميزات اللغة على أداء النموذج. أخيرًا، فإن نهج MultiPL-E لتجميع معايير أداء توليد الكود إلى لغات برمجة جديدة قابل للتوسع والتطوير، مما يجعل تقييم النماذج والمعايير واللغات الجديدة أمرًا سهلاً.

انضم إلينا في صياغة المستقبل

عرض جميع الوظائف

الأحدث

المزيد من النتائج

MultiPL-E: نهج قابل للتطوير ومتعدد اللغات لتقييم أداء توليد الكود العصبي

Author

Venue

Abstract

انضم إلينا في صياغة المستقبل

MultiPL-E: نهج قابل للتطوير ومتعدد اللغات لتقييم أداء توليد الكود العصبي

Author

Venue

Abstract

Related Publications

CubePart: مولد ثلاثي الأبعاد مفتوح المفردات وقابل للتحكم الجزئي

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

LLM الأصلي للفهرس: التحدث بلغة معرف العنصر (Item-ID) بلهجة أقل تشابكًا من أجل التوصية

انضم إلينا في صياغة المستقبل