இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

மல்டிபிஎல்-இ: நரம்பியல் குறியீடு உருவாக்கத்தை அளவீடு செய்வதற்கான ஒரு விரிவாக்கக்கூடிய மற்றும் பலமொழி அணுகுமுறை

View Publication

Author

ஃபெடரிகோ காசானோ (வடகிழக்கு பல்கலைக்கழகம்), ஜான் கௌவார் (வடகிழக்கு பல்கலைக்கழகம்), டேனியல் நுயென் (ஹானோவர் உயர்நிலைப் பள்ளி), சிட்னி நுயென் வெல்லஸ்லி கல்லூரி, லூனா ஃபிப்ஸ்-கஸ்டின் (வடகிழக்கு பல்கலைக்கழகம்), டொனால்ட் பிங்க்னி (வடகிழக்கு பல்கலைக்கழகம்), மிங்-ஹோ யீ (வடகிழக்கு பல்கலைக்கழகம்), யாங்டியன் ஸி (வடகிழக்கு பல்கலைக்கழகம்), கரோலின் ஜேன் ஆண்டர்சன் வெல்லஸ்லி கல்லூரி, மோலி க்யூ ஃபெல்ட்மேன் (ஓபர்லின் கல்லூரி), அர்ஜுன் குஹா (ராப்லாக்ஸ் + வடகிழக்கு பல்கலைக்கழகம்), மைக்கேல் கிரீன்பெர்க் (ஸ்டீவன்ஸ் தொழில்நுட்ப நிறுவனம்), அபினவ் ஜாங்டா (மைக்ரோசாப்ட்)

Venue

IEEE மென்பொருள் பொறியியல் மீதான பரிமாற்றங்கள் (TSE) 2023

Abstract

பெரிய மொழி மாதிரிகள் இயற்கை மொழி மற்றும் நிரலாக்க மொழி உரை இரண்டையும் உருவாக்கும் திறனை வெளிப்படுத்தியுள்ளன. அத்தகைய மாதிரிகள் பலமொழி குறியீடு உருவாக்கத்திற்கான சாத்தியத்தைத் திறக்கின்றன: குறியீடு உருவாக்கும் மாதிரிகள் ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு அறிவைப் பொதுமைப்படுத்த முடியுமா? தற்போதைய குறியீடு உருவாக்கும் மாதிரிகள் அர்த்தமுள்ள சரியான பைத்தான் குறியீட்டை உருவாக்க முடிந்தாலும், மற்ற மொழிகளில் அவற்றின் திறன்களைப் பற்றி அதிகம் அறியப்படவில்லை. யூனிட் டெஸ்ட்-இயக்கப்படும் குறியீடு உருவாக்கத் தரநிலைகளை புதிய மொழிகளுக்கு மொழிபெயர்க்கும் ஒரு அமைப்பான மல்டிபிஎல்-இ (MultiPL-E) என்பதை நாங்கள் முன்மொழிகிறோம். பிரபலமான இரண்டு பைத்தான் குறியீடு உருவாக்கும் அளவுகோல்களை 18 கூடுதல் நிரலாக்க மொழிகளுக்கு மொழிபெயர்க்க MultiPL-E-ஐப் பயன்படுத்தி, நாங்கள் முதல் பரந்த பன்மொழி குறியீடு உருவாக்கும் அளவுகோலை உருவாக்குகிறோம்.


பல்வேறு நிரலாக்க மாதிரிகள் மற்றும் பிரபலங்களை உள்ளடக்கிய 18 மொழிகளுக்கு HumanEval மற்றும் MBPP அளவுகோல்களை விரிவுபடுத்த MultiPL-E-ஐப் பயன்படுத்துகிறோம். இந்த புதிய இணை அளவுகோல்களைப் பயன்படுத்தி, Codex, CodeGen மற்றும் InCoder ஆகிய மூன்று அதிநவீன குறியீடு உருவாக்கும் மாதிரிகளின் பலமொழி செயல்திறனை நாங்கள் மதிப்பிடுகிறோம். பல பிற மொழிகளுக்கும் Python-க்கான அதன் செயல்திறனை Codex பொருத்துகிறது அல்லது அதைவிட அதிகமாகவும் உள்ளது என்பதை நாங்கள் கண்டறிகிறோம். MultiPL-E-இல் பிரதிநிதித்துவப்படுத்தப்பட்டுள்ள நிரலாக்க மொழிகளின் வரம்பு, மாதிரி செயல்திறனில் மொழி அதிர்வெண் மற்றும் மொழி அம்சங்களின் தாக்கத்தை ஆராய எங்களை அனுமதிக்கிறது. இறுதியாக, புதிய நிரலாக்க மொழிகளுக்கு குறியீடு உருவாக்கும் அளவீடுகளைத் தொகுக்கும் MultiPL-E அணுகுமுறை, அளவிடக்கூடியதாகவும் விரிவாக்கக்கூடியதாகவும் இருப்பதால், புதிய மாதிரிகள், அளவீடுகள் மற்றும் மொழிகளை மதிப்பிடுவதை எளிதாக்குகிறது.