Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E: Pendekatan yang Skalabel dan Multibahasa untuk Membandingkan Kinerja Generasi Kode Neural

View Publication

Author

Federico Cassano (Universitas Northeastern), John Gouwar (Universitas Northeastern), Daniel Nguyen (Sekolah Menengah Atas Hanover), Sydney Nguyen (Wellesley College), Luna Phipps-Costin (Universitas Northeastern), Donald Pinckney (Universitas Northeastern), Ming-Ho Yee (Universitas Northeastern), Yangtian Zi (Universitas Northeastern), Carolyn Jane Anderson (Wellesley College), Molly Q Feldman (Oberlin College), Arjun Guha (Roblox + Universitas Northeastern), Michael Greenberg (Stevens Institute of Technology), Abhinav Jangda (Microsoft)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

Model bahasa besar telah menunjukkan kemampuannya untuk menghasilkan teks dalam bahasa alami maupun bahasa pemrograman. Model-model tersebut membuka kemungkinan untuk pembuatan kode multibahasa: apakah model pembuatan kode dapat menggeneralisasi pengetahuan dari satu bahasa ke bahasa lain? Meskipun model pembuatan kode kontemporer dapat menghasilkan kode Python yang benar secara semantik, sedikit yang diketahui tentang kemampuannya dalam bahasa lain. Kami mengusulkan MultiPL-E, sebuah sistem untuk menerjemahkan tolok ukur pembuatan kode berbasis uji unit ke bahasa-bahasa baru. Kami menciptakan benchmark pembangkitan kode multibahasa berskala besar pertama dengan menggunakan MultiPL-E untuk menerjemahkan dua benchmark pembangkitan kode Python yang populer ke 18 bahasa pemrograman tambahan.


Kami menggunakan MultiPL-E untuk memperluas benchmark HumanEval dan MBPP ke 18 bahasa yang mencakup berbagai paradigma pemrograman dan tingkat popularitas. Dengan menggunakan benchmark paralel baru ini, kami mengevaluasi kinerja multibahasa dari tiga model pembangkitan kode terdepan: Codex, CodeGen, dan InCoder. Kami menemukan bahwa Codex setara atau bahkan melebihi kinerjanya pada Python untuk beberapa bahasa lain. Ragam bahasa pemrograman yang terwakili dalam MultiPL-E memungkinkan kami untuk mengeksplorasi dampak frekuensi bahasa dan fitur bahasa terhadap kinerja model. Terakhir, pendekatan MultiPL-E dalam mengompilasi tolok ukur pembuatan kode ke bahasa pemrograman baru bersifat skalabel dan dapat diperluas, sehingga memudahkan evaluasi model, tolok ukur, dan bahasa baru.