MultiPL-E: Sinir Ağı Kod Üretiminin Karşılaştırmalı Değerlendirilmesine Yönelik Ölçeklenebilir ve Çok Dilli Bir Yaklaşım

Share

Author

Federico Cassano (Northeastern Üniversitesi), John Gouwar (Northeastern Üniversitesi), Daniel Nguyen (Hanover Lisesi), Sydney Nguyen (Wellesley Koleji), Luna Phipps-Costin (Northeastern Üniversitesi), Donald Pinckney (Northeastern Üniversitesi), Ming-Ho Yee (Northeastern Üniversitesi), Yangtian Zi (Northeastern Üniversitesi), Carolyn Jane Anderson (Wellesley Koleji), Molly Q Feldman (Oberlin Koleji), Arjun Guha (Roblox + Northeastern Üniversitesi), Michael Greenberg (Stevens Teknoloji Enstitüsü), Abhinav Jangda (Microsoft)

Venue

IEEE Yazılım Mühendisliği Dergisi (TSE) 2023

Abstract

Büyük dil modelleri, hem doğal dil hem de programlama dili metinleri üretme yeteneğini kanıtlamıştır. Bu tür modeller, çok dilli kod üretiminin önünü açmaktadır: kod üretim modelleri, bir dildeki bilgiyi başka bir dile genelleştirebilir mi? Günümüzün kod üretim modelleri, anlamsal olarak doğru Python kodu üretebilse de, diğer dillerdeki yetenekleri hakkında çok az şey bilinmektedir. Biz, birim test odaklı kod üretim karşılaştırma testlerini yeni dillere çeviren bir sistem olan MultiPL-E'yi öneriyoruz. MultiPL-E'yi kullanarak iki popüler Python kod üretme karşılaştırma testini 18 ek programlama diline çevirerek, ilk büyük ölçekli çok dilli kod üretme karşılaştırma testini oluşturuyoruz.

MultiPL-E'yi kullanarak HumanEval ve MBPP karşılaştırma testlerini, çeşitli programlama paradigmalarını ve popülerlik düzeylerini kapsayan 18 dile genişlettik. Bu yeni paralel karşılaştırma testlerini kullanarak, Codex, CodeGen ve InCoder olmak üzere üç son teknoloji kod üretme modelinin çok dilli performansını değerlendirdik. Codex'in, Python'daki performansına eşdeğer veya hatta onu aşan bir performans sergilediğini gördük. MultiPL-E'de temsil edilen programlama dilleri yelpazesi, dil sıklığı ve dil özelliklerinin model performansı üzerindeki etkisini araştırmamızı sağlıyor. Son olarak, kod üretimi karşılaştırma testlerini yeni programlama dillerine derleyen MultiPL-E yaklaşımı hem ölçeklenebilir hem de genişletilebilir olduğundan, yeni modelleri, karşılaştırma testlerini ve dilleri değerlendirmek oldukça kolay hale geliyor.

Geleceği şekillendirmemize katılın

Tüm İşleri Görüntüle

En Son

Daha fazla sonuç

MultiPL-E: Sinir Ağı Kod Üretiminin Karşılaştırmalı Değerlendirilmesine Yönelik Ölçeklenebilir ve Çok Dilli Bir Yaklaşım

Author

Venue

Abstract

Geleceği şekillendirmemize katılın

MultiPL-E: Sinir Ağı Kod Üretiminin Karşılaştırmalı Değerlendirilmesine Yönelik Ölçeklenebilir ve Çok Dilli Bir Yaklaşım

Author

Venue

Abstract

Related Publications

CubePart: Açık Sözlükli, Parça Kontrol Edilebilir 3D Oluşturucu

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Katalog-Native LLM: Öneri için daha az karmaşıklık içeren konuşma öğesi kimliği lehçesi

Geleceği şekillendirmemize katılın