এই সাইটের বিষয়বস্তু কৃত্রিম বুদ্ধিমত্তা (AI) বা মেশিন অনুবাদ প্রযুক্তি ব্যবহার করে অনুবাদ করা হয়েছে এবং ত্রুটি থাকতে পারে।

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E: নিউরাল কোড জেনারেশনের বেঞ্চমার্কিংয়ের জন্য একটি স্কেলযোগ্য ও পলিগ্লট পদ্ধতি

View Publication

Author

ফেডেরিকো ক্যাসানো (নর্থইস্টার্ন ইউনিভার্সিটি), জন গৌয়ার (নর্থইস্টার্ন ইউনিভার্সিটি), ড্যানিয়েল গুয়েন (হ্যানোভার হাই স্কুল), সিডনি গুয়েন (ওয়েলেসলি কলেজ), লুনা ফিप्स-কোস্টিন (নর্থইস্টার্ন ইউনিভার্সিটি), ডোনাল্ড পিনকনি (নর্থইস্টার্ন ইউনিভার্সিটি), মিং-হো ই (নর্থইস্টার্ন ইউনিভার্সিটি), ইয়াংতিয়ান জি (নর্থইস্টার্ন ইউনিভার্সিটি), ক্যারোলিন জেন অ্যান্ডারসন ওয়েলেসলি কলেজ, মলি কিউ ফেল্ডম্যান (ওবারলিন কলেজ), অর্জুন গুহ (রবলোক্স + নর্থইস্টার্ন ইউনিভার্সিটি), মাইকেল গ্রিনবার্গ (স্টিভেন্স ইনস্টিটিউট অফ টেকনোলজি), অভিষেক জংদা (মাইক্রোসফট)

Venue

আইইইই ট্রানজ্যাকশনস অন সফটওয়্যার ইঞ্জিনিয়ারিং (TSE) ২০২৩

Abstract

বৃহৎ ভাষামডেলগুলো প্রাকৃতিক ভাষা এবং প্রোগ্রামিং ভাষার টেক্সট উভয়ই তৈরি করার ক্ষমতা প্রদর্শন করেছে। এই ধরনের মডেলগুলো বহু-ভাষিক কোড জেনারেেশনের সম্ভাবনা উন্মোচন করে: কোড জেনারেেশন মডেলগুলো কি এক ভাষার জ্ঞান অন্য ভাষায় সাধারণীকরণ করতে পারবে? যদিও সমসাময়িক কোড জেনারেেশন মডেলগুলো অর্থগতভাবে সঠিক পাইথন কোড তৈরি করতে পারে, অন্যান্য ভাষায় তাদের দক্ষতা সম্পর্কে খুব কমই জানা যায়। আমরা MultiPL-E প্রস্তাব করছি, একটি সিস্টেম যা ইউনিট টেস্ট-চালিত কোড জেনারেেশন বেঞ্চমার্কগুলোকে নতুন ভাষায় অনুবাদ করে। আমরা MultiPL-E ব্যবহার করে দুইটি জনপ্রিয় পাইথন কোড জেনারেটেশন বেঞ্চমার্ককে ১৮টি অতিরিক্ত প্রোগ্রামিং ভাষায় অনুবাদ করে প্রথম ব্যাপক বহুভাষিক কোড জেনারেটেশন বেঞ্চমার্ক তৈরি করেছি।


আমরা HumanEval এবং MBPP বেঞ্চমার্ককে ১৮টি ভাষায় সম্প্রসারণ করতে MultiPL-E ব্যবহার করি, যা বিভিন্ন প্রোগ্রামিং প্যারাডাইম এবং জনপ্রিয়তা অন্তর্ভুক্ত করে। এই নতুন সমান্তরাল বেঞ্চমার্ক ব্যবহার করে, আমরা তিনটি অত্যাধুনিক কোড জেনারেটেশন মডেলের—Codex, CodeGen, এবং InCoder—বহু-ভাষা কর্মক্ষমতা মূল্যায়ন করি। আমরা দেখতে পাই যে Codex বেশ কয়েকটি অন্যান্য ভাষায় Python-এ এর কর্মক্ষমতার সমতুল্য বা এমনকি তা ছাড়িয়ে যায়। MultiPL-E-তে প্রতিনিধিত্বকৃত প্রোগ্রামিং ভাষার বিস্তৃত পরিসর আমাদের ভাষার ফ্রিকোয়েন্সি এবং ভাষাগত বৈশিষ্ট্যগুলির মডেল কর্মক্ষমতার উপর প্রভাব অন্বেষণ করতে দেয়। অবশেষে, নতুন প্রোগ্রামিং ভাষায় কোড জেনারেশন বেঞ্চমার্ক কম্পাইল করার MultiPL-E পদ্ধতিটি স্কেলযোগ্য এবং সম্প্রসারণযোগ্য, যা নতুন মডেল, বেঞ্চমার্ক এবং ভাষা মূল্যায়ন করা সহজ করে তোলে।