Bu sitedeki içerik yapay zeka (AI) veya makine çeviri teknolojisi kullanılarak çevrilmiştir ve hatalar içerebilir.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E: Sinir Ağı Kod Üretiminin Karşılaştırmalı Değerlendirilmesine Yönelik Ölçeklenebilir ve Çok Dilli Bir Yaklaşım

View Publication

Author

Federico Cassano (Northeastern Üniversitesi), John Gouwar (Northeastern Üniversitesi), Daniel Nguyen (Hanover Lisesi), Sydney Nguyen (Wellesley Koleji), Luna Phipps-Costin (Northeastern Üniversitesi), Donald Pinckney (Northeastern Üniversitesi), Ming-Ho Yee (Northeastern Üniversitesi), Yangtian Zi (Northeastern Üniversitesi), Carolyn Jane Anderson (Wellesley Koleji), Molly Q Feldman (Oberlin Koleji), Arjun Guha (Roblox + Northeastern Üniversitesi), Michael Greenberg (Stevens Teknoloji Enstitüsü), Abhinav Jangda (Microsoft)

Venue

IEEE Yazılım Mühendisliği Dergisi (TSE) 2023

Abstract

Büyük dil modelleri, hem doğal dil hem de programlama dili metinleri üretme yeteneğini kanıtlamıştır. Bu tür modeller, çok dilli kod üretiminin önünü açmaktadır: kod üretim modelleri, bir dildeki bilgiyi başka bir dile genelleştirebilir mi? Günümüzün kod üretim modelleri, anlamsal olarak doğru Python kodu üretebilse de, diğer dillerdeki yetenekleri hakkında çok az şey bilinmektedir. Biz, birim test odaklı kod üretim karşılaştırma testlerini yeni dillere çeviren bir sistem olan MultiPL-E'yi öneriyoruz. MultiPL-E'yi kullanarak iki popüler Python kod üretme karşılaştırma testini 18 ek programlama diline çevirerek, ilk büyük ölçekli çok dilli kod üretme karşılaştırma testini oluşturuyoruz.


MultiPL-E'yi kullanarak HumanEval ve MBPP karşılaştırma testlerini, çeşitli programlama paradigmalarını ve popülerlik düzeylerini kapsayan 18 dile genişlettik. Bu yeni paralel karşılaştırma testlerini kullanarak, Codex, CodeGen ve InCoder olmak üzere üç son teknoloji kod üretme modelinin çok dilli performansını değerlendirdik. Codex'in, Python'daki performansına eşdeğer veya hatta onu aşan bir performans sergilediğini gördük. MultiPL-E'de temsil edilen programlama dilleri yelpazesi, dil sıklığı ve dil özelliklerinin model performansı üzerindeki etkisini araştırmamızı sağlıyor. Son olarak, kod üretimi karşılaştırma testlerini yeni programlama dillerine derleyen MultiPL-E yaklaşımı hem ölçeklenebilir hem de genişletilebilir olduğundan, yeni modelleri, karşılaştırma testlerini ve dilleri değerlendirmek oldukça kolay hale geliyor.