மல்டிபிஎல்-இ: நரம்பியல் குறியீடு உருவாக்கத்தை அளவீடு செய்வதற்கான ஒரு விரிவாக்கக்கூடிய மற்றும் பலமொழி அணுகுமுறை
Author
Venue
IEEE மென்பொருள் பொறியியல் மீதான பரிமாற்றங்கள் (TSE) 2023
Abstract
பெரிய மொழி மாதிரிகள் இயற்கை மொழி மற்றும் நிரலாக்க மொழி உரை இரண்டையும் உருவாக்கும் திறனை வெளிப்படுத்தியுள்ளன. அத்தகைய மாதிரிகள் பலமொழி குறியீடு உருவாக்கத்திற்கான சாத்தியத்தைத் திறக்கின்றன: குறியீடு உருவாக்கும் மாதிரிகள் ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு அறிவைப் பொதுமைப்படுத்த முடியுமா? தற்போதைய குறியீடு உருவாக்கும் மாதிரிகள் அர்த்தமுள்ள சரியான பைத்தான் குறியீட்டை உருவாக்க முடிந்தாலும், மற்ற மொழிகளில் அவற்றின் திறன்களைப் பற்றி அதிகம் அறியப்படவில்லை. யூனிட் டெஸ்ட்-இயக்கப்படும் குறியீடு உருவாக்கத் தரநிலைகளை புதிய மொழிகளுக்கு மொழிபெயர்க்கும் ஒரு அமைப்பான மல்டிபிஎல்-இ (MultiPL-E) என்பதை நாங்கள் முன்மொழிகிறோம். பிரபலமான இரண்டு பைத்தான் குறியீடு உருவாக்கும் அளவுகோல்களை 18 கூடுதல் நிரலாக்க மொழிகளுக்கு மொழிபெயர்க்க MultiPL-E-ஐப் பயன்படுத்தி, நாங்கள் முதல் பரந்த பன்மொழி குறியீடு உருவாக்கும் அளவுகோலை உருவாக்குகிறோம்.
பல்வேறு நிரலாக்க மாதிரிகள் மற்றும் பிரபலங்களை உள்ளடக்கிய 18 மொழிகளுக்கு HumanEval மற்றும் MBPP அளவுகோல்களை விரிவுபடுத்த MultiPL-E-ஐப் பயன்படுத்துகிறோம். இந்த புதிய இணை அளவுகோல்களைப் பயன்படுத்தி, Codex, CodeGen மற்றும் InCoder ஆகிய மூன்று அதிநவீன குறியீடு உருவாக்கும் மாதிரிகளின் பலமொழி செயல்திறனை நாங்கள் மதிப்பிடுகிறோம். பல பிற மொழிகளுக்கும் Python-க்கான அதன் செயல்திறனை Codex பொருத்துகிறது அல்லது அதைவிட அதிகமாகவும் உள்ளது என்பதை நாங்கள் கண்டறிகிறோம். MultiPL-E-இல் பிரதிநிதித்துவப்படுத்தப்பட்டுள்ள நிரலாக்க மொழிகளின் வரம்பு, மாதிரி செயல்திறனில் மொழி அதிர்வெண் மற்றும் மொழி அம்சங்களின் தாக்கத்தை ஆராய எங்களை அனுமதிக்கிறது. இறுதியாக, புதிய நிரலாக்க மொழிகளுக்கு குறியீடு உருவாக்கும் அளவீடுகளைத் தொகுக்கும் MultiPL-E அணுகுமுறை, அளவிடக்கூடியதாகவும் விரிவாக்கக்கூடியதாகவும் இருப்பதால், புதிய மாதிரிகள், அளவீடுகள் மற்றும் மொழிகளை மதிப்பிடுவதை எளிதாக்குகிறது.
