மல்டிபிஎல்-இ: நரம்பியல் குறியீடு உருவாக்கத்தை அளவீடு செய்வதற்கான ஒரு விரிவாக்கக்கூடிய மற்றும் பலமொழி அணுகுமுறை

Share

Author

ஃபெடரிகோ காசானோ (வடகிழக்கு பல்கலைக்கழகம்), ஜான் கௌவார் (வடகிழக்கு பல்கலைக்கழகம்), டேனியல் நுயென் (ஹானோவர் உயர்நிலைப் பள்ளி), சிட்னி நுயென் வெல்லஸ்லி கல்லூரி, லூனா ஃபிப்ஸ்-கஸ்டின் (வடகிழக்கு பல்கலைக்கழகம்), டொனால்ட் பிங்க்னி (வடகிழக்கு பல்கலைக்கழகம்), மிங்-ஹோ யீ (வடகிழக்கு பல்கலைக்கழகம்), யாங்டியன் ஸி (வடகிழக்கு பல்கலைக்கழகம்), கரோலின் ஜேன் ஆண்டர்சன் வெல்லஸ்லி கல்லூரி, மோலி க்யூ ஃபெல்ட்மேன் (ஓபர்லின் கல்லூரி), அர்ஜுன் குஹா (ராப்லாக்ஸ் + வடகிழக்கு பல்கலைக்கழகம்), மைக்கேல் கிரீன்பெர்க் (ஸ்டீவன்ஸ் தொழில்நுட்ப நிறுவனம்), அபினவ் ஜாங்டா (மைக்ரோசாப்ட்)

Venue

IEEE மென்பொருள் பொறியியல் மீதான பரிமாற்றங்கள் (TSE) 2023

Abstract

பெரிய மொழி மாதிரிகள் இயற்கை மொழி மற்றும் நிரலாக்க மொழி உரை இரண்டையும் உருவாக்கும் திறனை வெளிப்படுத்தியுள்ளன. அத்தகைய மாதிரிகள் பலமொழி குறியீடு உருவாக்கத்திற்கான சாத்தியத்தைத் திறக்கின்றன: குறியீடு உருவாக்கும் மாதிரிகள் ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு அறிவைப் பொதுமைப்படுத்த முடியுமா? தற்போதைய குறியீடு உருவாக்கும் மாதிரிகள் அர்த்தமுள்ள சரியான பைத்தான் குறியீட்டை உருவாக்க முடிந்தாலும், மற்ற மொழிகளில் அவற்றின் திறன்களைப் பற்றி அதிகம் அறியப்படவில்லை. யூனிட் டெஸ்ட்-இயக்கப்படும் குறியீடு உருவாக்கத் தரநிலைகளை புதிய மொழிகளுக்கு மொழிபெயர்க்கும் ஒரு அமைப்பான மல்டிபிஎல்-இ (MultiPL-E) என்பதை நாங்கள் முன்மொழிகிறோம். பிரபலமான இரண்டு பைத்தான் குறியீடு உருவாக்கும் அளவுகோல்களை 18 கூடுதல் நிரலாக்க மொழிகளுக்கு மொழிபெயர்க்க MultiPL-E-ஐப் பயன்படுத்தி, நாங்கள் முதல் பரந்த பன்மொழி குறியீடு உருவாக்கும் அளவுகோலை உருவாக்குகிறோம்.

பல்வேறு நிரலாக்க மாதிரிகள் மற்றும் பிரபலங்களை உள்ளடக்கிய 18 மொழிகளுக்கு HumanEval மற்றும் MBPP அளவுகோல்களை விரிவுபடுத்த MultiPL-E-ஐப் பயன்படுத்துகிறோம். இந்த புதிய இணை அளவுகோல்களைப் பயன்படுத்தி, Codex, CodeGen மற்றும் InCoder ஆகிய மூன்று அதிநவீன குறியீடு உருவாக்கும் மாதிரிகளின் பலமொழி செயல்திறனை நாங்கள் மதிப்பிடுகிறோம். பல பிற மொழிகளுக்கும் Python-க்கான அதன் செயல்திறனை Codex பொருத்துகிறது அல்லது அதைவிட அதிகமாகவும் உள்ளது என்பதை நாங்கள் கண்டறிகிறோம். MultiPL-E-இல் பிரதிநிதித்துவப்படுத்தப்பட்டுள்ள நிரலாக்க மொழிகளின் வரம்பு, மாதிரி செயல்திறனில் மொழி அதிர்வெண் மற்றும் மொழி அம்சங்களின் தாக்கத்தை ஆராய எங்களை அனுமதிக்கிறது. இறுதியாக, புதிய நிரலாக்க மொழிகளுக்கு குறியீடு உருவாக்கும் அளவீடுகளைத் தொகுக்கும் MultiPL-E அணுகுமுறை, அளவிடக்கூடியதாகவும் விரிவாக்கக்கூடியதாகவும் இருப்பதால், புதிய மாதிரிகள், அளவீடுகள் மற்றும் மொழிகளை மதிப்பிடுவதை எளிதாக்குகிறது.

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

அனைத்து வேலைகளையும் காண்க

சமீபத்தியது

மேலும் முடிவுகள்

Author

Venue

Abstract

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

Author

Venue

Abstract

Related Publications

கியூப் பார்ட்: ஒரு திறந்த-சொற்களஞ்சிய, பகுதி-கட்டுப்பாடக்கூடிய 3D ஜெனரேட்டர்

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

பட்டியல்-உள்ளூர் LLM: பரிந்துரைக்காகக் குறைந்த பின்னிப்பிணைவுடன் பேசும் ஐட்டம்-ID வட்டார வழக்கு

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்